关于搜索聊天记录

奶酪(524300045) 16:33:15 
语言都是一样,思想最重要
andy(40508730) 16:33:27 
伟大的小白(439297317)  16:31:16
各种语言都用 不是说 让做刷马桶的去烧饭

你刷马桶要用马桶刷
你烧饭要用烧饭的
andy(40508730) 16:33:36 
主要思想是完成工作
0.0(237667802) 16:33:38 
思想这东西,太抽象了
天上虹(175535850) 16:33:42 
linux下c/c++推荐基本书吧,
罗成(409661706) 16:33:45 
语言太杂了 真不好···奔波于语法的学习

伟大的小白(439297317) 16:34:06 
思想.. 对你说赫赫  你对c来个闭包思想看看
低调(313316432) 16:34:07 
语法还真不是重点
西电-hadoop(715691357) 16:34:12 
恩 最关键的 你得能上网 能google 能百度 能csdn 能加hadoop技术交流群
伟大的小白(439297317) 16:34:20 
你对 java来个指针思想看看
天上虹(175535850) 16:34:30 
更重要的是没事了能上上防御塔 
伟大的小白(439297317) 16:34:29 
思想这东西 你忽悠忽悠刚毕业的还差不多 
低调(313316432) 16:34:31 
对各种库啊 api啊什么的 记得多
天上虹(175535850) 16:34:43 
大家看人人小站没 摧毁了一座防御塔
0.0(237667802) 16:34:58 
别再谈思想了,谈不起
罗成(409661706) 16:35:05 
最合适就是最好的吧··

0.0(237667802) 16:35:49 
最多谈谈架构
西电-hadoop(715691357) 16:36:24 
有个问题放在那里 你就赶紧想个法子解决了 就行了 
天上虹(175535850) 16:36:24 
没有哪种思想能适合每一个公司的业务的 
罗成(409661706) 16:36:47 
老板就别想给1份的工资就让人做2份工作的事···招的是JAVA程序员 就别逼人家搞C的项目···业余时间帮你用C做个开源消息队列还行
天上虹(175535850) 16:37:34 
我以前说想去搞搞c的。。。没想到真想起我了。。。
0.0(237667802) 16:37:50 
那就搞呗
0.0(237667802) 16:38:07 
把自己卖给了老板,不搞,人家不给你饭吃
天上虹(175535850) 16:38:17 
加薪搞不搞c 
罗成(409661706) 16:39:01 
中国就是项目搞得太急躁··没时间重构···
不能精雕细琢
0.0(237667802) 16:39:45 
没有品质优良的项目,哪来重构的基础
西电-hadoop(715691357) 16:40:04 
都啥时代了 谁还有心思搞绣花针 能搞出来 卖出去 能用就行了 反正用的人也不知道咋回事
西电-hadoop(715691357) 16:40:08 
哈哈
天上虹(175535850) 16:40:18 
话说中国干什么事情都说要”又快又好“,上至天朝下至百姓
伟大的小白(439297317) 16:40:25 
重构了你的代码 谁来重构我的钱包
0.0(237667802) 16:40:36 
不必抱怨那么多
海风(78441391) 16:46:51 
问大家一个问题,有没有碰到
只能Map,不能Reduce的情况
Reduce=0% 卡这了
nknk(290377570) 16:48:23 
你用combine了吗?
海风(78441391) 16:53:25 
在hive命令行运行的
小Q(178960751) 18:14:29 
连鸿蒙国际这样的烂东西都能上人民日报.汗!
小Q(178960751) 18:15:07 
 
kwee(836232886) 18:15:34 
娱乐新闻嘛日期:2011/11/24
lykke.lm(715356603) 9:15:11 
org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.protocol.AlreadyBeingCreatedException: failed to create file /user/suse/tik/segments/20111123175211/content/part-00003/data for DFSClient_attempt_201111220922_0412_r_000003_1 on client 192.168.1.15 because current leaseholder is trying to recreate file.
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFileInternal(FSNamesystem.java:1045)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.startFile(FSNamesystem.java:981)
at org.apache.hadoop.hdfs.server.namenode.NameNode.create(NameNode.java:377)
at sun.reflect.GeneratedMethodAccessor9.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:508)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:959)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:955)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:953)

请问谁遇到过这种错误
lykke.lm(715356603) 9:15:24 
运行几个小时之后就报这个错误
332106123(332106123) 9:16:47 
好像是权限问题
lykke.lm(715356603) 9:16:53 
不是 
lykke.lm(715356603) 9:17:02 
要是权限问题的话 任务根本运行不起来 
lykke.lm(715356603) 9:17:09 
我这个是运行了 10几个小时的时候报的 
开心延年-alipay<[email protected]> 10:13:41 
目标:
让单机版的lucene能够支持十亿级别索引的查询
索引更改点
1. 索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
2. Term压缩方式由原先,存储上一条记录的差异,存储关键点的差异(这样会照成压缩比降低,但是二分法必须这样做)
3.如果索引二分查找文档差异<128则,保留原先链表顺序查找,调用scan方法(这样做尽管读的次数增多,但考虑磁盘的物理特点,结合文件缓冲区,速度会比不断的seek快,物理硬盘适合读取连续的数据)(深入阅读缓冲区源码后,发现lucene对seek有优化,这步优化多余)
4. 由于norms同样非常消耗内存,这里创建索引的时候禁用norms,待以后改进此处


下表为对100W~10亿条md5值进行创建索引以及查询的情况
读的时间为查询10W条md5的时间,单位毫秒
写为创建完整索引的时间,单位为毫秒。




 
lykke.lm(715356603) 10:15:34 
lucene 搜索   85.2 g的索引文件要多久 
lykke.lm(715356603) 10:15:54 
5 秒多?
xiaolong(312210901) 10:16:28 
什么需求需要在单板机上做索引呢 
(来自手机QQ: http://mobile.qq.com/v/ )  
风车车(54343885) 10:16:38 
这个好高级呀
开心延年-alipay<[email protected]> 10:16:45 
50毫秒 
lykke.lm(715356603) 10:16:50 
不可能吧 
开心延年-alipay<[email protected]> 10:16:57 
修改了索引啦 
lykke.lm(715356603) 10:17:01 
85,2 g 50毫秒
lykke.lm(715356603) 10:17:12 
你怎么修改的呢》
bruce_yang(782506462) 10:17:13 
此代码只应天上有,人间哪得几回看
lykke.lm(715356603) 10:17:14 
能说说么 
开心延年-alipay<[email protected]> 10:17:17 
二分法查找 性能还是不错的 
lykke.lm(715356603) 10:17:30 
和查找没关系 难道你不用lucene 检索么?》

风车车(54343885) 10:17:38 
不是把所有的索引都加载到内存中么
开心延年-alipay<[email protected]> 10:17:46 
lucene的索引结构改了 
开心延年-alipay<[email protected]> 10:18:00 
全加到内存了  肯定达不到亿的级别





开心延年-alipay<[email protected]> 10:26:05 
只改动了这几个类
lykke.lm(715356603) 10:26:25 
发源码吧 开心
伟大的小白(439297317) 10:26:34 
跳跃表的性能 > 二分法吧
kelo_北京(13581754) 10:26:41 
是呀,开心
云 - 华(46249327) 10:26:50 
单机 lucene能够支持十亿级别索引的查询   
lykke.lm(715356603) 10:27:05 
 

我也觉得不可能 
开心延年-alipay<[email protected]> 10:27:18 
代码给你  自己测试下就知道啦 
bruce_yang(782506462) 10:27:23 
改了建立索引的 java代码?
lykke.lm(715356603) 10:27:23 
我现在的索引大约10个g 单机 根本不行 
伟大的小白(439297317) 10:27:34 
难 追求速度 需要内存全加载
bruce_yang(782506462) 10:27:42 
10G 多少条数据啊
bruce_yang(782506462) 10:27:44 
lm
伟大的小白(439297317) 10:27:46 
那多坑跌阿
bruce_yang(782506462) 10:27:47 
luykke
lykke.lm(715356603) 10:27:55 
我那个 是网页
翟光亚(304428768) 10:28:01 
索引由原先的128位的跳跃表,更改为二分法查找(目的是解决当分词数量过亿后,太过消耗物理的内存导致的java heap space问题)
这个会占用多大内存?
翟光亚(304428768) 10:28:09 
感觉没有必要这样的
伟大的小白(439297317) 10:28:30 
我一直没搞明白
伟大的小白(439297317) 10:28:41 
跳跃表就是为了节约内存设计的
lykke.lm(715356603) 10:28:52 
单机可以查10g的搜索并且速度上可以改进的一点就是 将10g的索引 分开目录存储 
lykke.lm(715356603) 10:28:59 
用MulitSearch 
伟大的小白(439297317) 10:29:01 
怎么二分法反而内存小 。。。。?why?
伟大的小白(439297317) 10:29:08 
ss
开心延年-alipay<[email protected]> 10:29:09 
[email protected];[email protected];[email protected];[email protected];
开心延年-alipay<[email protected]> 10:29:14 
文件二分法啊 
开心延年-alipay<[email protected]> 10:29:18 
文件是定长的 
lykke.lm(715356603) 10:29:21 
715356603@qq,com
lykke.lm(715356603) 10:29:33 
g给我发啊 哥们 
kwee(836232886) 10:29:52 
[email protected]
越测越开心(19730953) 10:29:53 
还有[email protected]  支持下阿里兄弟
kelo_北京(13581754) 10:30:02 
发了呀,多谢,我正在研究分布式搜索这块,要是一台机能再上个2亿,那可是好事
332106123(332106123) 10:30:20 
[email protected]  
bruce_yang(782506462) 10:30:46 
kelo 你眼睛分布式?
在路上(386728737) 10:30:47 
同求,[email protected], 
bruce_yang(782506462) 10:30:48 
研究
bruce_yang(782506462) 10:30:52 
单机 ?
bruce_yang(782506462) 10:30:56 
还搞啥分布式
开心延年-alipay<[email protected]> 10:31:01 
我业余时间搞着玩的哈   就修改了几天
bruce_yang(782506462) 10:31:01 
知道sensei没
bruce_yang(782506462) 10:31:16 
正需要做搜索呢
bruce_yang(782506462) 10:31:20 
你那个不是会bug吧?
开心延年-alipay<[email protected]> 10:31:35 
你测试下 
开心延年-alipay<[email protected]> 10:31:45 
验证下结果是否正确就知道了 
开心延年-alipay<[email protected]> 10:31:56 
邮件中我给出了测试代码
在路上(386728737) 10:32:25 
强烈建议开心把源码共享到群
kelo_北京(13581754) 10:32:39 
是呀
开心延年-alipay<[email protected]> 10:33:11 
都发给大家了 
风(51263) 10:33:50 
[email protected],我也要一份
广州-ZBIRD(258987928) 10:34:56 
[email protected]
广州-ZBIRD(258987928) 10:35:07 
 
在路上(386728737) 10:35:59 
开心,都改了哪些类?
开心延年-alipay<[email protected]> 10:36:12 
 
在路上(386728737) 10:36:28 
能否兼容lucene3.3~3.4版本?
开心延年-alipay<[email protected]> 10:36:40 
TermInfosReader与TermInfosWriter
开心延年-alipay<[email protected]> 10:36:46 
肯定不兼容了 
开心延年-alipay<[email protected]> 10:36:51 
索引都变了 
bruce_yang(782506462) 10:36:51 
找不到啊
开心延年-alipay<[email protected]> 10:36:56 
你以为我是作者啊 
bruce_yang(782506462) 10:36:57 
叫啥名字
lykke.lm(715356603) 10:37:06 
呵呵






日期:2011/11/24
开心延年-alipay<[email protected]> 10:37:07 
你邮箱多少

bruce_yang(782506462) 10:37:14 
[email protected]
bruce_yang(782506462) 10:37:28 
不兼容?
bruce_yang(782506462) 10:37:41 
擦
kwee(836232886) 10:37:43 
[email protected]
开心延年-alipay<[email protected]> 10:37:47 
就三天晚上 还兼容啊 呵呵
在路上(386728737) 10:38:14 
我的意思是说,代码能否工作在3.4下,索引重建
bruce_yang(782506462) 10:38:30 
北京一家牛逼个欧诺公司
bruce_yang(782506462) 10:38:33 
公司
bruce_yang(782506462) 10:38:36 
又要不去的没
bruce_yang(782506462) 10:38:42 
乐荐网络(www.joyrec.com)
开心延年-alipay<[email protected]> 10:40:44 
没测试过呀 
bruce_yang(782506462) 10:42:41 
还是没收到呢
bruce_yang(782506462) 10:42:42 
开心 
开心延年-alipay<[email protected]> 10:43:33 
你的邮箱不让发吧 
高调-失业中(13574798) 10:43:33 
群共享源码
bruce_yang(782506462) 10:43:46 
[email protected]
bruce_yang(782506462) 10:43:48 
这个吧
kwee(836232886) 10:44:00 
[email protected].  
bruce_yang(782506462) 10:46:23 
收到了 tks
高调-失业中(13574798) 10:46:30 
[email protected]
kwee(836232886) 10:46:53 
谢谢 收到。
伟大的小白(439297317) 10:47:03 
变那么多人研究luncene了?
开心延年-alipay<[email protected]> 10:47:12 
空间不足 无法上传 汗 
高调-失业中(13574798) 10:47:35 
上传到零时空间
bruce_yang(782506462) 10:48:16 
lucene4 听说改动很大
kelo_北京(13581754) 10:48:25 
邮件收到,忙这阵,好好研究一下,怎样在单机上多上个几亿数据
bruce_yang(782506462) 10:48:26 
性能提升 非常大
bruce_yang(782506462) 10:48:41 
kelo。北京
开心延年-alipay<[email protected]> 10:48:43 
lucene4  都出来啦 
开心延年-alipay<[email protected]> 10:48:47 
改动了啥呀 
bruce_yang(782506462) 10:48:47 
你现在数据多少
bruce_yang(782506462) 10:48:57 
lucene4  已经 测试了
bruce_yang(782506462) 10:48:58 
开始
bruce_yang(782506462) 10:49:08 
算法改动很大
伟大的小白(439297317) 10:50:30 
lucene4把api接口都换了
伟大的小白(439297317) 10:50:41 
实现策略也是
伟大的小白(439297317) 10:50:48 
基本不能过度
kelo_北京(13581754) 10:51:16 
没看到呀
kelo_北京(13581754) 10:51:25 
看看svn里头的
kelo_北京(13581754) 10:51:48 
呵呵,自玩的
清澈高远(305412982) 10:51:55 
lucene更新很快
bruce_yang(782506462) 10:52:19 
 
bruce_yang(782506462) 10:52:27 
http://paris8.org/a/bbs/viewthread.php?tid=6098
伟大的小白(439297317) 10:53:37 
真心累啊 我在看osgi md 发现唯一的文档竟然和现在版本差距那么多  才多久阿
bruce_yang(782506462) 10:53:45 
http://ostatic.com/blog/guest-post-under-the-hood-in-apache-lucene-4-0
bruce_yang(782506462) 10:53:47 
原文 
bruce_yang(782506462) 10:54:31 
哪位研究过sensei
开心延年-alipay<[email protected]> 10:55:10 
不行了  得干活了 如果还有人想要源码 发邮件给[email protected]  我定期回复  
伟大的小白(439297317) 10:55:11 
上次也是 去年弄得cas 今年发现版本更新
bruce_yang(782506462) 10:55:40 
搞这么大 更新太快了
bruce_yang(782506462) 10:55:52 
lucene3 变化很大
bruce_yang(782506462) 10:55:59 
现在4也很大
广州-ZBIRD(258987928) 10:56:17 
谁转发一份给偶。呵呵。谢谢
伟大的小白(439297317) 10:56:41 
lucene2 -> 3 不兼容 -> 4 不一定兼容
bruce_yang(782506462) 10:58:17 
linkedin 公司的分布式搜索
bruce_yang(782506462) 10:58:23 
哪位研究过
源远流长(117405390) 10:58:30 
zoie? 
bruce_yang(782506462) 10:58:34 
不是
bruce_yang(782506462) 10:58:38 
sensei

猜你喜欢

转载自sealbird.iteye.com/blog/1276560