hadoop讨论

雪候鸟<[email protected]> 9:46:08
hadoop只是降低了分布式开发的门槛，只需要调用map reduce接口，就能写一个在一个很大数据集上跑的分布式程序，但它效率并不高，一个进程动辄占几个G。这也是为什么百度自己实现一套hadoop。但它还是可以满足大多数公司处理大数据的需要，我觉得结合业务设计一个好的mr很重要，也很难。
乄信念ヤ(244985220) 9:47:22
pig的mapreduce模式必须将pig部署在hadoop节点上吗？
寒塘草(957261640) 9:49:02
hive也许更适合我，不知道其性能到底能不能达到web交互模式的应用开发？
雪候鸟<[email protected]> 9:51:38
hive是秒级响应的吧
storm是实时的
寒塘草(957261640) 9:52:50
我那天测试了下，才一点点数据，hive查询就22秒
寒塘草(957261640) 9:53:31

KeepItSimple<[email protected]> 9:54:04
一个进程动辄占几个G
雪候鸟<[email protected]> 9:54:06
hive貌似除了select *，其他都是起MR，启动个MR都要几秒钟，不太适合实时的查询
寒塘草(957261640) 9:54:11
这种效率，对于web系统是要命的
KeepItSimple<[email protected]> 9:54:21
这话怎么理解？雪候鸟
寒塘草(957261640) 9:54:51
难道hadoop只能用于后台数据挖掘了？
雪候鸟<[email protected]> 9:56:07
默认配置namenode和jobtracker都要1个G，而且如果集群大的话，还要把namenode和jobtracker分开，非常耗资源，hbase就更耗资源了，16G的机器很难跑
寒塘草(957261640) 9:56:43
hive不是基于hbase吗？
雪候鸟<[email protected]> 9:56:48
有时候2个oracle搞定的事情，用hbase要5台
雪候鸟<[email protected]> 9:57:14
没研究过，我就看看了user guide。。。
寒塘草(957261640) 9:58:44
namenode能不能自动镜像备份？否则namenode坏了怎么办，集群系统一旦namenode坏了，不要了命去了
寒塘草(957261640) 9:59:36
一旦namenode 不可恢复，那些datanode都是废物了吧？
雪候鸟<[email protected]> 10:01:06
有好几种备份方式，但都是冷备，只有facebook那种方式是热备，可是我们用的hadoop版本和它相差很多了，升级需要改很多东西
我们公司有个牛逼人在做虚拟机热备，还在试验，貌似可以解决namenode备份问题
寒塘草(957261640) 10:01:57
冷备就不用考虑了，现在没人愿意用冷备
寒塘草(957261640) 10:03:51
看来没几个公司能用得起hadoop的，离现实还有很长的路要走？
雪候鸟<[email protected]> 10:04:04
小数据基本还是冷备的，namenode加载20PB需要一个小时，我们数据量不到1PB，而且用checkpoint方式可以保证数据安全
寒塘草(957261640) 10:04:06
敢用
蓝晓宇^^(瑜)(33445185) 10:04:44
hbase你用小数据去测试，那个响应时间是完全达不到要求的
寒塘草(957261640) 10:05:35
难道越大越快？我还以为只是大的话不会明显变慢而已
蓝晓宇^^(瑜)(33445185) 10:05:36
HBASE我了解不深，但是之前在CSDN上看过几篇关于HBASE性能探讨的文章，基本有一个观点，当你的存储量没有打到1亿条时，还是老实的关系型数据库吧
蓝晓宇^^(瑜)(33445185) 10:05:50
因为是基于列的
蓝晓宇^^(瑜)(33445185) 10:05:59
所以才会越大越快
蓝晓宇^^(瑜)(33445185) 10:06:12
关于HBASE，用得比较好的就是TAOBAO了
蓝晓宇^^(瑜)(33445185) 10:06:23
百度搞的什么HYBERBASE
寒塘草(957261640) 10:07:10
问题是3年数据量可能达不到，但是，5,10年数据量就达到了，难道非得等系统运行几年后再去重写？
蓝晓宇^^(瑜)(33445185) 10:07:28
那你就不要用HBASE啊
雪候鸟<[email protected]> 10:07:49
额，如果用oracle能解决，最好还是用oracle，hbase非常不稳定
寒塘草(957261640) 10:08:13
非常不稳定？
蓝晓宇^^(瑜)(33445185) 10:08:18
HADOOP提供一个叫Sqxx的东西用于将关系型数据库的数据导出到HDFS里
雪候鸟<[email protected]> 10:08:34
0.90版本split过程经常会有丢region块的问题
雪候鸟<[email protected]> 10:08:41
sqoop
蓝晓宇^^(瑜)(33445185) 10:08:52
我用的0.92.1的貌似还好。。
寒塘草(957261640) 10:09:26
光导出不行啊，要在线服务的那种 hdfs下的"云oracle"
雪候鸟<[email protected]> 10:09:41
恩，我们考虑用cloudera的cdh4b2，这个是用的0.92,目前的项目还是用的cdh3u1
蓝晓宇^^(瑜)(33445185) 10:09:57
雪候鸟，你们公司有在用HADOOP？北京没多少公司在用，貌似都是些大公司。
寒塘草(957261640) 10:10:31
大公司估计也没几家敢用
雪候鸟<[email protected]> 10:10:34
额，我们公司是网安行业，数据量非常大，实时性不高
雪候鸟<[email protected]> 10:11:29
北京大概一天20T，其他地方也有几T
蓝晓宇^^(瑜)(33445185) 10:11:39
你们招人不，我迫切需要HADOOP，HBASE之类的实习啊，在整个学院的研究生里，就我一个在弄，导师们都不懂，真孤独啊。
蓝晓宇^^(瑜)(33445185) 10:12:02
一天20T那是必须要用了。。
雪候鸟<[email protected]> 10:12:35
我们招人。。。来吗，马上要去东莞出差，去两个月
现在还有2个NOSQL的名额
VISION(929596182) 10:13:31
在哪里呢
、
【提示：此用户正在使用Q+ Web： http://web.qq.com/】
寒塘草(957261640) 10:13:38
我看你可以去研究2个月
雪候鸟<[email protected]> 10:13:57
北京
乄信念ヤ(244985220) 10:14:01
估计他们不要实习生
雪候鸟<[email protected]> 10:14:07
恩

猜你喜欢