阿里云大学:使用自然语言处理进行简历筛选 笔记

第一课

自然语言处理介绍

自然语言就是人类日常使用的语言,比如汉语,英语等。

自然语言处理就是机器处理。用计算机处理自然语言。

用途:机器翻译,情感分析,褒义,贬义;文本相似度匹配;新闻推荐,信息搜索;聊天机器人;

第二课 通用技术

分词,停用词过滤,删除无帮助的词,词干提取,词性还原,词袋模型,把文本转化向量的表示,,TF-IDF,词频加权计算,改变权重,Word2vect,映射到n维空间

分词:把连续的文本,分割成语义合理的若干词汇序列,主要针对中文分词。分词方式不唯一;分词是基础;

停用词过滤:回忆语文知识,把句子分为主干和枝叶,定语,状语等。主干不可以去掉,枝叶部分可以删除,去掉后句子核心意思不会变化。小白兔在雪地奔跑,核心就是兔子奔跑;

停用词:在文本中大量存在,对语义分析没有帮助的词。万一下雨呢?把停用词万一,呢去掉,保留核心的下雨;为啥要过滤掉停用词,如果不过滤,也没有关系,但是会造成空间存储的浪费,保留更多的信息。

第三课 通用技术

词干提取,词性还原,词袋模型。

词干提取:对一个单词去掉后缀,还原本身,用于英文中。例如:play, played, plays, playing,他们是同一个单词;

词性还原:对同一个单词不同形式的识别,把单词还原为标准形式,用于英语等西方语言;比如is,are, was;

词干提取和词性还原:相同点:都是对同一个单词不同形式处理。不通点:词干提取是去掉单词后缀;词性还原是以词元为依据,根据语义进行分析,获取单词标注形式;ate词干提取变成at;词性还原就是eat

词袋模型:把文本表示为数值特征向量的表示形式。方式为将每个文档构建一个特征向量,其中包含每个单词在文档中出现的次数。

每个单词在对应文档中出现的次数。特征:第一:文本向量存在大量0,稀疏的,因为很多词没有出现;第二不考虑顺序,语句结构和语法;

课时4 通用技术TFIDF, word2vec;

词频-逆文档频率,针对词语重要性的一种加权统计方式。核心思想:词条重要性随着词条在当前文档中出现的次数成正比,所有文档中出现的频率成反比。逆词频合理矫正权重;

TF:term frequence,词频统计,词语出现频率进行次数统计;

TF=单词出现的次数/当前文档中单词总数

IDF:inverse document frequency, 逆文档频率;取对数:(语料库中文档总数/(语料库中包含该词的文档数+1))

word2vec词袋模型的替换算法,谷歌2013年提出的开源算法,属于神经网络部分了;把词映射为n维度空间;神经网络无监督算法,把近义词划分到相同的簇当中;词条转为词向量,通过两个向量的余弦相似度计算文本之间的相似性。iw1 = [1,3], w2= [2,1];cos@=1*2 + 3*1/开根号的和

第五课:

阿里云机器学习平台

构建在阿里云计算平台上,集数据处理,建模,离线预测,在线预测为一体的机器学习平台。封装了各种成熟算法,支持tf,caffe,MXNET,提供分布式计算,可视化操作环境,

一站式体验服务:

第六课

阿里云学习平台使用方法:登录官网,注册用户,支持淘宝,1688直接登录,选择数据只能菜单,大数据基础服务,机器学习pai,点击管理控制台,开通相应服务。创建项目,勾选服务,包年,按照数量,等方式,点击进入机器学习,各种界面,新建实验,使用自然语言处理进行简历筛选,描述:使用阿里云机器学习平台进行监理筛选。创建新的目录。点击创建按钮,就可以创建新的实验。进行拖拽组建就可以了。拖拽到中间面板就可以了。

要求和简历文本进行匹配,匹配度越高越好。点击右键,查看数据,两个模块连接,右侧属性进行设置,点击右键,执行该节点。stop_word

第七课

任务介绍

第八课

实验环节,有时间限制。想重复使用,必须重复交钱。

最后点评

花费68块钱,对自然语言基本概念有个了解,总共课时2小时,最后有个小实验,实现简历的相似度检查,求最佳匹配的简历。

主要两个文件,一个是工作岗位的描述,一个是很多求职者的简历描述,对这两个文件进行相似度匹配,关键是拖拽模块进行学习,我还以为是Python编程呢,有点失望。最后还可以参加测试,对学习的两个小时进行检验。

测试前要提交身份证照片,然后考试期间全程摄像头监控,如果你切换页面搜索答案,或者其他有可能作弊的行为都会发出警告,总之,考试还是挺严格的。考试内容也是挺难的,虽然讲课看起来很简单,但是考试内容很难做。考试题是15道选择题,有单项选择和多项选择。

68块买了2小时的课程和一张证书。

认识你是我们的缘分,同学,等等,学习人工智能,记得关注我。

微信扫一扫
关注该公众号

《湾区人工智能》

回复《人生苦短,我用Python》便可以获取下面的超高清电子书和代码

猜你喜欢

转载自blog.csdn.net/BTUJACK/article/details/85040076