大数据共28篇
Spark为什么比MapReduce快-春马与夏

Spark为什么比MapReduce快

误区两者都是基于内存计算的,任何计算框架都是基于内存计算的,不会把数据在磁盘中运算。DAG计算模型减少的是不必要的中间结果的计算次数,而不是磁盘I/O次数,磁盘I/O始终都是一次读一次写。...
【书籍资源】Hive编程技术与应用-春马与夏
Flink内存调优-春马与夏

Flink内存调优

一、Flink 1.9内存模型 四个独立部分cut-offNetwork BufferManaged MemoryJVM堆内存内存结构总内存大小配置参数:taskmanager.heap.size (or deprecated taskmanager.heap.mb)♣cuf-off使用内...
47天前
0100
【SQL】会话分割计算次数-春马与夏

【SQL】会话分割计算次数

问题有如下访问网站的数据,包括用户id和访问时间两个字段。如果某个用户的连续的访问记录时间间隔小于60秒,则属于同一个会话,现在需要计算每个用户有多少个会话。比如A用户在第1秒,60秒,20...
1个月前
0730
【SQL】部门收益占比-春马与夏

【SQL】部门收益占比

问题现在有一张每个年份的每个部门的收入表。现在需要算每个部门的收入占同类型部门的收入的占比和当年整个公司的收入占比。要求一条SQL计算出来。比如研发部和产品部属于同类型的,都是产研;...
1个月前
0100
【SQL】进货价格追溯补回-春马与夏

【SQL】进货价格追溯补回

问题现在有一张商品入库表,包括商品id、商品成本和入库日期3个字段,由于某些原因,导致部分商品的成本缺失(为0或者没有值都是缺失),这样不利于我们计算成本。现在要把缺失的商品进价补充完...
1个月前
050
【SQL】最大连续登录天数(升级版)-春马与夏

【SQL】最大连续登录天数(升级版)

问题下面是某游戏公司记录的用户每日登录数据, 计算每个用户最大的连续登录天数,定义连续登录时可以间隔一天。举例:如果一个用户在 1,3,5,6,9 登录了游戏,则视为连续 6 天登录。user_id dt 1...
1个月前
0120
【SQL】用户互相关注-春马与夏

【SQL】用户互相关注

问题现在有一张relation表,里面只有两个字段:from_user和to_user,代表关注关系从from指向to,即from_user关注了to_user。现在要找出互相关注的所有人。from_user to_user 孙悟空 唐僧 唐僧 ...
1个月前
0130
【SQL】恶意取消订单用户-春马与夏

【SQL】恶意取消订单用户

问题下面是某电商网站的订单数据,包括order_id,user_id,order_status和operate_time四个字段,我们需要找出所有恶意购买的用户。恶意购买的用户定义是:同一个用户,在任意半小时内(含),取...
1个月前
020
【SQL】相同ip集的用户对-春马与夏

【SQL】相同ip集的用户对

问题现在有一张用户登陆日志表,该表包括user_id,ip,log_time三个字段,现在需要找出共同使用ip数量超过3个(含)的所有用户对。比如下面的示例数据,101和102用户共同使用的ip为4个,101和103用...
1个月前
080