Hadoop的Secondary Sorting

  • Post author:
  • Post category:IT
  • Post comments:0评论

这几天项目中使用Hadoop遇到一个问题,对于这样key-value的数据集合:id-biz object,对id进行partition(比如根据某特定的hash算法P),分为a份;使用数量为b的reducer,在reducer里面要使用第三方组件进行批量上传;上传成文件,文件数量为c,但是有两个要求: 上述a、b、c都相等,从而使得每个partition的数据最终都通过同一个reducer上传到同一个文件中去; 每个reducer中上传的数据要求id必须有序。 最开始,想到的办法是,为了保证r…

继续阅读Hadoop的Secondary Sorting

今日头条1亿美金融资背后,关注四个争辩焦点

  • Post author:
  • Post category:IT
  • Post comments:0评论

今日头条宣布融资1亿美元 6月3日,资讯应用今日头条宣布完成C轮1亿美金的融资,由红杉资本领投、新浪微博跟投。这也是截至目前,今年国内互联网行业的第二大融资,仅次于豌豆荚今年1月的1.2亿美元融资。C轮之后,今日头条估值约在5亿美元左右。 2012年8月,今日头条上线,此后两年间,它从搜狐、网易、腾讯等门户新闻客户端产品的围剿中脱颖而出,目前用户规模超过1亿,月活跃用户超过4000万。 这次它1亿美元融资的背后,究竟有哪些值得关注的事情呢? 新浪微博为什么投资今日头条? C轮融资的投资方中,除了…

继续阅读今日头条1亿美金融资背后,关注四个争辩焦点

Web框架与太阳系

  • Post author:
  • Post category:IT
  • Post comments:0评论

古语有云:工欲善其事,必先利其器。对于Web开发亦是如此,不过现在的Web框架实在是太多了!以PHP为例,有CakePHP、CodeIgniter、Symfony,Zend,Yii等等,到底谁是最合适的?事实上过多的选择往往会让人陷入「乱花渐欲迷人眼」的窘境,这些年我一直游走在各种PHP框架之间,却始终没有觅得属于自己的屠龙刀,于是我决定自己动手,就像歌里唱的那样:不是你亲手点燃的那就不能叫做火焰。 既然要自己动手,那么就需要明确一下设计目标,我个人主要关注以下几个方面:微内核、模块化、扩展性。…

继续阅读Web框架与太阳系

流年不利,流年不利

  • Post author:
  • Post category:IT
  • Post comments:0评论

图片来自felix824同学,2012年摄于香港维多利亚公园(来源)。 撇开很多复杂的立场、对错问题,在今天这个特别的日子。我仍然愿意向那些曾经愿意「相信美好的事情即将发生」的人们,并且身体力行去实践去推动,表达我的敬意。 希望我们能永远保有这些良好的品质,不失去对美好生活向往与憧憬的能力,做自己喜欢的人。今天在社交网络禁言一天。 沉重的部分说完了,来扯点不开心的事情让大家开心一下。我购入不到一个月的 Sony α7 with FE 35mm/F2.8,顺利在山西太原迎泽公园被盗,损失一万元人民…

继续阅读流年不利,流年不利

Spray 中协议处理 Pipelines 的实现

  • Post author:
  • Post category:IT
  • Post comments:0评论

最近在玩 scala,用到了 spray 来处理 Http,看了一下代码觉得很神奇,这里抄一段 spray 1.3 中的协议处理 pipeline 的实现,原始文件在 spray 中的 spray-io/src/main/scala/spray/io/Pipelines.scala 在 spray-io 中,网络协议可以拆分成多级流水线来处理,从网络到应用逐级升高,在前一级中处理低级事务,屏蔽掉一些底层机制,把高层决断交给后一级处理;而从应用到网络逐级降低,在前一级接受处理高层命令,分解成低级命…

继续阅读Spray 中协议处理 Pipelines 的实现