尝试spark
某个线上服务,访问量每天N亿, output种类异常丰富,依赖内部服务众多,出现问题的概率相对较大,故搞了某准实时分析系统, 用于分析性能和定(bu)位(bei)问(hei)题(guo)。 作为最接近DSL的优秀的prototype language, 我们开始是用PHP写了个多进程模型来跑, kafka传输数据,每分钟计算一次做归并, 速度基本可以满足需求。 跟广告算法团队沟通后, 某同学用scala重写了一遍,之后决定尝试下spark,然后悲催的发现在公司集群上的速度居然没有单机spark…