王斌 信息检索导论 现代信息检索 课程建议 大作业

写一些学习相关的东西,让各位大神见笑了。各位都是我的师傅,请各位直言不讳的给我指教,指教的好,我请吃饭,哈哈

文章本着客观、幽默又有点严谨的原则写的。写得匆忙,如有不爽和不严谨之处,多有担待!

第一章 写在前面

花时间写这个文章,确实是想得有点多了,在各种细节上有点做到极致了,导师和朋友说的“少想多做”还是很有道理的。但是“法乎其上得其中”,也就刚开学有时间有精力、还在规划阶段才有条件去想的,等规划好了,开始按部就班的执行,就没时间去想了。

项目的前期规划很重要,但是后期的执行力更重要!


第二章 学习上的想法

本来是想直接发在二室学生群里的,但是后来想想没那个必要,就暂且粘贴在这了——

各位二室的老师、师兄师姐、同学们,大家好!大晚上的打搅了!

扫描二维码关注公众号,回复: 1743802 查看本文章

很高兴能跟大家学习,以后大家都是我的师傅,如果我有什么错误、不足,希望各位能够直言不讳的予以私下指教(私聊)。作为高中就入党的老党员,希望大家有什么困难可以来找党员帮忙(当然是原则范围以内,不危害集体、他人利益的,本人能力范围以内的)。

一、关于学习上的一些想法,希望大家(尤其是数据组的同学)能给予批评指教:

1、因为课题组选课并不统一,所以课程方面(尤其是有大作业的)上客观上最好能找到擅长、交流和相互指导、【水平相近】小伙伴的一起学习进步。当然有大神愿意带我是最好了。

2、有对我课表、及选课原因感兴趣的可以私聊我。希望每门课能找一个小伙伴,互相提醒、占座、交流。

3、毕竟不是每位导师都有很多时间,也不是每位有时间的导师会讨论你的每一件事。

4、本人没有学生工作,希望能找到【水平相近、互补】的同学在技术、论文方法上相互指教。

5、有兴趣的可以晚饭的时候约谈(饭钱我出)


第三章 个人简介(面向工程、组队方面)

1、【本人没有参与班委会工作,英语A已过,研一没有100%硬性回所规定】有足够精力投入到项目,希望能找到【水平相近、互补】的同学在技术、论文方法上相互指教。当然有不仅做得厉害而且教得厉害的大神愿意带我是最好的。

2、本人小学到大学经历各种学生工作锻炼(需要证明扫描版可以找我拿,哈哈),有丰富的人际交往、团队沟通协调的经验、教训、能力

3、软件工程出身,有丰富的大作业经验(经过调查,仅有极个别同学本科没有大作业经验)

4、个人简历(共享群共享好像太张扬,请私聊我)

履历:(1)华为2016年校园招聘提前批(2015年暑期)招聘Special Offer(一级),软件开发工程师

(2)网宿科技股份有限公司(2015年中国互联网企业30强,2014年20强,业务面向“客户”而非“用户”所以名气不大),云存储Java开发实习生,由于组内只有我一个人懂某只能开发不能研发的语言A,中途用该语言把项目对外的API全都写了一遍

(3)2016年厦门美团准offer,因为当时已经保研不好再参加校招了,你懂得

  (4)做个中小项目十余个

5、建议有兴趣的可以把简历(给HR看的,正常人不会写缺点)甚至个人自述(带缺点的全面介绍)发我。

  1)、如果之后成功组队,有利于发掘优势、分配任务;

  2)、从长远的角度我们可以相互给出一些建议。

第四章 学习这门课的目的和规划

1、有大作业的课只准备留这门或其他真的有价值的再留一门,有大作业不准备超过两门。希望做得好的工作时能直接投到简历上。

王斌老师这门课的项目做得好会对未来找工作很有帮助,王斌老师自己是这样说的,咨询前辈后也有这样说的。

2、认识研一期间、甚至研究生期间、甚至终身互相学习的好伙伴。

3、和计算机理论专业、信息安全、密码学等专业的伙伴思维碰撞,优势互补,拓展知识面。

4、有意识培养分析、代码方面举一反三的能力

5、(1)对于理论而言,需要投入大量精力钻研,本身学一学期课是不够的,所以理论方面我打算尽量从课堂、吃饭走路的讨论、大作业中积累

(2)工程(大作业)方面,分析(前期调研)、代码实现、项目呈现(文档)都是要锻炼的。希望队友们这些方面也都变强。

(3)甚至如何把握策略应对考试规则都是要考虑的(当然一味朝向分数是不好的,哈哈)。

第五章 组队规划

2.1 人员构成

(这一段写得有点狠哈,但也没办法,现实式残酷的,人都想跟大神组队。)

7-621宿舍和王伟平老师课题组的同学中一起出4-5个人。

目前7-621宿舍有2-4个候选人,我的意思是我这里在一定程度上可以控制人数(因为很多人没选上这个课,而且可能还不知道自己为什么选这门课,自己需要从这门课中学什么),来欢迎大神加入。

7-621已形成良好的民主协商氛围,什么都好商量。(宿舍的小伙伴要是觉得这句话有问题的话,来找我讨论,不服来辩,哈哈哈)

2.2 基本准则

1、  相互推诿、喜欢埋怨、过分精明却不做事的同学千万别来啊,扛不动,很蛋疼。

2、  根据所有人的锻炼需求、自我学习规划协调分配具体任务。

第三章 学(dui)好(fu)这(fen)门(shu)课已具备的条件

这部分欢迎大家修订

3.1.1 网络资料(欢迎补充)

1、包括早年的试题,网上、交流群、学长那很多,都下载下来了。感觉这些资料不是必要条件,踏踏实实跟着课程走才能学到真本事,这比考高分难。不到万不得已不会拿出来。

2、搜索引擎小项目的博客、github资源。当然光学会用别人的API是不行的,本科就会用了,难道研究生还要停留在“拿来”的水平上?

用大神同学的话说:“感觉研究生还是要静下心来去解决问题,搞清楚为什么。不然以后出来就是阿里百度这些公司的螺丝钉,没啥意思。”

3.1.2 大作业难度判断

大神同学说:“这个项目不会很难,及格很简单。主要是学习原理,数据量几十G,工程方面可以使用开源工具作为模块。”

但是同志们,自我要求还是要严格啊!

是不是不使用“某某名人说‘。。。’”就显得文字没有分量,那我也是没有办法。。。

3.1.3 队员资质

各高校精英,智商在哪里,有态度,掌握方法,都不是难事。

第七章 尚不具备的条件

4.1 课题内容

主题不明,下面以“搜索引擎”来分析试试,看看组队需要哪些人才,大概需要哪些技术要素。

4.2 技术需求

下面以“搜索引擎”来分析试试,试个手,有点数,看看组队需要哪些人才,大概需要哪些技术要素。

4.3 人才运用

对组员技术履历、性格特征、价值取向的了解

第八章 搜索引擎(信息检索系统)小项目

研究生阶段主张算法尽量自己实现。(是不是说得压力太大了,哈哈)

研究生了希望自己不在满足于本科改造别人现成的开源系统、调用调用API;二是要自学会从本质的知识出发自己上手分析设计,实在做不出来的再借用别人的模块。


1.1 《信息检索》文章模块梳理

 http://pan.baidu.com/s/1nvqCrXJ

1.2 系统模块设计

把握《信息检索》书的大纲,并结合本科舆情项目的经验,大胆给出架构设计,如下图所示。


 http://pan.baidu.com/s/1nvqCrXJ

上图架构可以和《信息检索导论》全书的章节结合起来。

1.3 系统实现概述

上一小节的设计已经算比较详细了,很多地方都是定位为自己算法实现的。

1、 退而求其次:就像王斌老师上课说的,lucene加些代码功底就可以写出搜索引擎了。。

2、 退而求其再次:以本人对新浪云应用的了解,该应用目前有丰富的API,估计可以拼凑出一个不支持大数据量的搜索引擎。

1.4 与IIE大数据平台类比

一个典型的大数据平台由:1、数据获取;2、存储;3、管理和分析;4、前端显示;5、用户操作几部分组成。这跟搜索引擎基本是一致的流程。

得出一个结论:做一下搜索引擎项目,对于了解iie的整个大数据平台宏观架构思路都是有帮助的。

第二章 再回过头来看人员配置

欢迎修订

是不是有人完全懂信息检索不重要,因为本来就是来学习的。对于完成项目(主题不定)而言,大胆假设团队所需的必要技术条件:

1、 WEB或PC界面

2、 懂一些存储的,最起码数据库不止知道SQL还知道索引优化

3、 快速学习新语言、调用框架API

4、 数学大神啊,那种不仅自己懂还能给全组人讲的大神啊

很希望能给自己(我们)找个强大的领导

第一章 提出问题(理论知识学习)

在搜索引擎小项目的设计过程中提出问题有待日后自己领悟解决

问题暂时太多了,就不写了

1.1 宏观层面

布尔检索和倒排的逻辑关系

第二章 后记

写这么多,真的很累!难道受益的只是我一个人?  有这个时间我还是自己多去拍代码,多反思,举一反三好了,明知道纯费口舌,我还是做了这件事啊,哈哈哈

在科院遇到这么多大神,感觉自己的能力也得到了飞快的提升,果然榜样的力量是无穷的。

第三章 鸣谢

感谢导师一般的舍友和尚未谋面交流已久的大神。

参考文献

[1]      


猜你喜欢

转载自blog.csdn.net/wzwdcld/article/details/53288625