对于实训项目的内容解释

(1)数据抓取的目标

本次数据抓取的目标网址为:选影视 (douban.com)(豆瓣电影),抓取不同类型电影影评:

(2)启动启动器,打开目标网站,建立数组,爬取数据分别抓取:剧情,喜剧,动作,爱情,科幻,动画,悬疑,冒险,灾难,武侠,奇幻,西部,战争,历史,传记,歌舞,音乐,恐怖,犯罪等类型电影影评(每种类型抓取了1200条语料):

(3)项目主要内容

    (1)选择自己感兴趣的内容主页,抓取不同类别的文本语料,通过jieba对文本分词,通过统计词频并计算每个文本中每个词的tfidf值提取文本特征,运用PCA(主成分分析法)对文本特征进行降维;

    (2)使用词袋模型对每个文本进行表示,分别使用监督学习方法:朴素贝叶斯模型、K近邻模型,无监督学习方法:层次聚类、K均值聚类方法,对文本进行分类或聚类,使用matplotlib对类别进行展示。

(4)由二维数组直接创建DataFrame,得到形状一样的数据。

(5)导入包,导入数据,展示数据几行。jieba分词:步骤就是把每一个语句拿出来进行jieba.cut分词  然后遍历分词  判断是否为停用词  如果是就抛弃  如果不是就加进去。

(6)使用的是老师提供的语料库,在进行tfidf处理之前,已进行jiba分词。停用词也直接用的老师发到群里面的。统计影评中的词频。

(7)PCA降维,例如将1000个特征降到100个,去除无用噪声。

(8)matplotlib,也参考的群里面现成的资料,但是部分

(9)朴素贝叶斯:总共有19个分好词的文件,词与词之间用空格隔开。每篇以。。。为一类,共。。。文件名。统计一共有多少篇文章,设置一个随机数,把数据按照二八原则划分为训练集和测试集。分别求其测试概率和条件概率。

(10)K近邻:给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例, 这K个实例的多数属于某个类,就把该输入实例分类到这个类中。计算测试数据到训练数据之间的距离,假设 k 为 3,那么我们就找到距离中最小的三个点,假如 3 个点中有 2 个属于动作片,1 个属于爱情片,那么把该电影 X 分类为动作片。这种通过计算距离总结 k 个最邻近的类,按照”少数服从多数“原则

(10)k聚类算法:以距离判断点间的相似度并对数据进行聚类。导入scikitlearn库,数值计算numpy和pandas库。使用采样数据还是原始数据训练k-means。绘制散点图

猜你喜欢

转载自blog.csdn.net/weixin_45823684/article/details/130833188
今日推荐