发布于 2024-07-01
摘要
Hive 中的MapJoin是一种优化技术,用于在数据集大小不匹配的情况下提高查询性能。MapJoin 将较小的表(或称为维度表) …
Hive 中的MapJoin是一种优化技术,用于在数据集大小不匹配的情况下提高查询性能。MapJoin 将较小的表(或称为维度表) …
假设我们有一个名为 sales 的表,其中包含列 salesperson 和 a …
问题 有如下访问网站的数据,包括用户id和访问时间两个字段。如果某个用户的连续的访问记录时间间隔小于60秒,则属于同一个会话,现在 …
问题 现在有一张每个年份的每个部门的收入表。现在需要算每个部门的收入占同类型部门的收入的占比和当年整个公司的收入占比。要求一条SQ …
问题 现在有一张商品入库表,包括商品id、商品成本和入库日期3个字段,由于某些原因,导致部分商品的成本缺失(为0或者没有值都是缺失 …
问题 下面是某游戏公司记录的用户每日登录数据, 计算每个用户最大的连续登录天数,定义连续登录时可以间隔一天。举例:如果一个用户在 …
问题 现在有一张relation表,里面只有两个字段:from_user和to_user,代表关注关系从from指向to,即fro …
问题 下面是某电商网站的订单数据,包括order_id,user_id,order_status和operate_time四个字段 …
问题 现在有一张用户登陆日志表,该表包括user_id,ip,log_time三个字段,现在需要找出共同使用ip数量超过3个(含) …
问题 在活动大促中,有玩游戏瓜分奖金环节。现有奖金池为10000元,代表奖金池中的初始额度。 表中的数据代表每一个用户和其对应的得 …