post_img

Hive的MapJoin

摘要

Hive 中的MapJoin是一种优化技术,用于在数据集大小不匹配的情况下提高查询性能。MapJoin 将较小的表(或称为维度表) …

post_img

Spark为什么比MapReduce快

摘要

误区 两者都是基于内存计算的,任何计算框架都是基于内存计算的,不会把数据在磁盘中运算。 DAG计算模型减少的是不必要的中间结果的计 …

post_img

【算法】N叉树的遍历

摘要

N叉树没有严格意义上的中序遍历。中序遍历通常用于二叉树,它是指先访问左子树,然后访问根节点,最后访问右子树。由于N叉树的节点可能有 …

post_img

【SQL】会话分割计算次数

摘要

问题 有如下访问网站的数据,包括用户id和访问时间两个字段。如果某个用户的连续的访问记录时间间隔小于60秒,则属于同一个会话,现在 …

post_img

【SQL】部门收益占比

摘要

问题 现在有一张每个年份的每个部门的收入表。现在需要算每个部门的收入占同类型部门的收入的占比和当年整个公司的收入占比。要求一条SQ …

post_img

【SQL】进货价格追溯补回

摘要

问题 现在有一张商品入库表,包括商品id、商品成本和入库日期3个字段,由于某些原因,导致部分商品的成本缺失(为0或者没有值都是缺失 …

post_img

【SQL】最大连续登录天数(升级版)

摘要

问题 下面是某游戏公司记录的用户每日登录数据, 计算每个用户最大的连续登录天数,定义连续登录时可以间隔一天。举例:如果一个用户在 …