滑动窗口 TOPN 技术实现演变

需求:

        文章表一张。

        每小时,统计出上一个小时(发文时间)文章内容中出现最多的前100个单词。

        其实就是一个 滑动窗口 TOPN

       方案1:单机单线程,定时每小时统计上一个小时的文章单词的前100个。

       优点:简单

       缺点: 数据量大,速度慢

   

      方案2:单机多线程,定时每小时统计上一个小时的文章单词的前100个。

扫描二维码关注公众号,回复: 753479 查看本文章

       优点:较简单

       缺点: 数据量大,速度较慢

       方案3:多机多线程,Spark streaming, storm 

       优点: 复杂

       缺点: 数据量大,速度较块

       

       

猜你喜欢

转载自m635674608.iteye.com/blog/2248394