1000万条日志分析处理

        在工作中,需要处理大规模数据问题。

        没想用什么大数据工具,首先想到的是使用Java直接操作,处理500万条1.05G的数据,

统计mac地址,日期数,mac地址随日期数变化的关系等等,使用到了HashSet、ArraryList等。开始的时候还可以,一个通用的8G内存的笔记本就可以了。

        第二个月,随着数据的增长,当用到arrarylist等存储1.5G的时候,数据就存不进去了,直接gameover, outof memory了,宝宝心里苦啊。

         优化了很久,发现不果,无论怎么样,都很难将1.5G-2G的数据塞进内存里边,想了很久,发现还是得利用工具,于是使用数据库,通用的SQL数据库,MySQL。SQL语音足够复杂多变,能够处理很多问题,像arango的AQL数据库就太简单了,很多数据统计就不行,结果在本机上就能够操作了,哈!

猜你喜欢

转载自blog.csdn.net/rensihui/article/details/79453669