一道hivehive 面试题题

1)Hive数据倾斜问题:

倾斜原因: map输出數据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点】【等原因造成的reduce上的数据量差异过大。

RCFile(存储方式:数据按行分块每块按列存储。结合了行存储和列存储的优点)

row_number() 是没有重复值的排序(即使两天记录相等也是不重复的),可以利用它来实现分页

dense_rank() 是连续排序,两个第二名仍然跟着第三名

我要回帖

更多关于 hive 面试题 的文章

 

随机推荐