流式大数据处理的日子

最近这个月好沉默,因为在看物联网与大数据的东西,刚入门没什么可说的......想起唐诺的一段话:“我们缺的不再是知识,过多过廉价的知识像大仓库般丧失了美感、珍罕感,再不复有魅惑力量。”

《后Hadoop时代的大数据架构》 -董飞,一个超完整大数据架构与选择的总结,看花眼,看哭人。

 

Storm/Spark Stream们

5. Spark Streaming的文章:
《Spark Streaming性能调优详解》
《Spark Streaming 1.3对Kafka整合的提升详解》

4. 《流式大数据处理的三种框架:Storm,Spark和Samza》: 各自的用例总结得不错,Samza的动态性看起来挺吸引:“如果你有大量的数据流处理阶段,且分别来自不同代码库的不同团队,那么Samza的细颗粒工作特性会尤其适用,因为它们可以在影响最小化的前提下完成增加或移除的工作。”

3. 我的《Storm笔记》

2. 上周在亚马逊的云上搭一套十台m3.large的大数据演示,演完立马卷堂大散,几小时下来只要六美刀,很经济实惠的样子。不过m3.large的性能有点low,下次得是m3.xlarge,价钱就要翻到十二美刀去了 。

1. 阿里的同学都是很好的翻译家。之前Storm以Clojure写成,翻代码时查问题都是连蒙带猜半明不白的,阿里的同学们用Java将它翻写成了JStorm。再之前,Scala写的Kafka也翻写一遍成了RocketMQ


 

Esper

《Pulsar:来自eBay的开源实时分析平台》,看进去发现它不单CEP用Esper来做,连数据的多佳节又重阳维度聚合也是用Esper——第一次看见活着的Esper重度使用者。

Esper的首页上写着如下字句,与时俱进的典范。

Esper runs well inside a Storm bolt, or a Samza stream task and inside a Spark Streaming operator

Storm + Esper,感觉很强大的流式大数据实时事件处理框架,但Esper那792页的用户手册.....找回三年前写的微博,““袜子穿上,毛衣穿上,一个人宅在家里,Esper长长的manual,深深伤害了我的感情,老了,nothing is easy to me。”

 

一些书

《大数据日知录》: 前几年参加各种技术会议,CAP,最终一致性,RWN,向量时钟,Paxos,一致性哈希,Gossip什么的能灌你一耳朵。而现在,你只要在家安安静静的看看《大数据日知录》就够了。即使你家项目没有PB级别的大数据要处理,只看前半部,对NoSQL和分布式系统的种种概念,其清晰的梳理,可见到书与文章、胶片的区别。

《Storm源码分析》:作为工具书在手边备一本,有疑问的时候可以翻一下。Clojure绝对是阻碍Storm进一步发展的原因。

《Storm分布式实时计算模式》:大概讲了下Storm与其他开源工具如何结合去实现一些功能,消遣的时候翻翻,不直接指导开发。

有关的...

This entry was posted in 技术 and tagged . Bookmark the permalink.

3 Responses to 流式大数据处理的日子

  1. Soli says:

    白衣少侠的文章,真是活色生香哈。

  2. 杜丹 says:

    哈哈,最近也是在CEP+Storm,对于Esper还是很有好感,相比Siddhi,Esper的文档还是详尽好用得多。

    • aron says:

      方便加个wx或者qq吗245915794 也在研究cep和esper

发表评论

您的电子邮箱不会被公开。

您可以使用这些 HTML 标签和属性: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>