Hadoop的Secondary Sorting
这几天项目中使用Hadoop遇到一个问题,对于这样key-value的数据集合:id-biz object,对id进行partition(比如根据某特定的hash算法P),分为a份;使用数量为b的reducer,在reducer里面要使用第三方组件进行批量上传;上传成文件,文件数量为c,但是有两个要求: 上述a、b、c都相等,从而使得每个partition的数据最终都通过同一个reducer上传到同一个文件中去; 每个reducer中上传的数据要求id必须有序。 最开始,想到的办法是,为了保证r…