1)Hive数据倾斜问题:
倾斜原因: map输出數据按Key Hash分配到reduce中,由于key分布不均匀、或者业务数据本身的特点】【等原因造成的reduce上的数据量差异过大。
RCFile(存储方式:数据按行分块每块按列存储。结合了行存储和列存储的优点)
row_number() 是没有重复值的排序(即使两天记录相等也是不重复的),可以利用它来实现分页
dense_rank() 是连续排序,两个第二名仍然跟着第三名