2012-2-20 新学期除草

上学期知识回顾:
1.贝叶斯文本分类算法
原理:将一段文字通过分词,形成一个词的组合,假设这些词语是相互独立的。在分类语料库中是不同分类的文本集合。在不同的分类集合中计算每个词出现的后验概率,每个词的概率相乘得到这一段文字出现在这个分类的后验概率。概率最大的那个分类即为这段文字的所属分类。
提高程序运行速度:在计算后验概率的过程中,原有的方法每次都要遍历语料库中的文本,通过string的contain函数获得包含该词的文本数,从而计算概率。改进的方法是,事先将词语在语料库中的后验概率计算出来,序列化到硬盘。在以后的计算中,直接读取序列化的变量,不需要遍历语料库。
   在选取特征词的过程中使用的是chi-square值来获得参与计算的词,而其余的词不参与计算概率。
2.git的基本使用
基本命令:
git init 在硬盘某一位置初始化git
git add . 将目录中文件添加到git版本库中
git commit -m “description” 添加更新的说明
git push 远程git库 -f -master 强制覆盖远程git版本库
3.linux常用命令
ssh 远程登录
sudo apt-get install 软件名
sudo apt-get update 更新source-list
su 进入root账户
isof -i 端口 查看占用端口的进程
kill 9 进程号 强制停止某进程
jobs 正在运行的进程
chmod a+x 755 目录 更改目录的权限

猜你喜欢

转载自l-mai.iteye.com/blog/1414559