对于实训项目的内容解释

（1）数据抓取的目标

本次数据抓取的目标网址为：选影视 (douban.com)（豆瓣电影），抓取不同类型电影影评：

（2）启动启动器，打开目标网站，建立数组，爬取数据分别抓取：剧情,喜剧,动作,爱情,科幻，动画,悬疑,冒险,灾难,武侠,奇幻,西部,战争,历史,传记,歌舞,音乐,恐怖,犯罪等类型电影影评（每种类型抓取了1200条语料）：

（3）项目主要内容

（1）选择自己感兴趣的内容主页，抓取不同类别的文本语料，通过jieba对文本分词，通过统计词频并计算每个文本中每个词的tfidf值提取文本特征，运用PCA（主成分分析法）对文本特征进行降维；

（2）使用词袋模型对每个文本进行表示，分别使用监督学习方法：朴素贝叶斯模型、K近邻模型，无监督学习方法：层次聚类、K均值聚类方法，对文本进行分类或聚类，使用matplotlib对类别进行展示。

（4）由二维数组直接创建DataFrame,得到形状一样的数据。

（5）导入包，导入数据，展示数据几行。jieba分词：步骤就是把每一个语句拿出来进行jieba.cut分词然后遍历分词判断是否为停用词如果是就抛弃如果不是就加进去。

（6）使用的是老师提供的语料库，在进行tfidf处理之前，已进行jiba分词。停用词也直接用的老师发到群里面的。统计影评中的词频。

（7）PCA降维，例如将1000个特征降到100个，去除无用噪声。

（8）matplotlib,也参考的群里面现成的资料，但是部分

（9）朴素贝叶斯：总共有19个分好词的文件，词与词之间用空格隔开。每篇以。。。为一类，共。。。文件名。统计一共有多少篇文章，设置一个随机数，把数据按照二八原则划分为训练集和测试集。分别求其测试概率和条件概率。

（10）K近邻：给定一个训练数据集，对新的输入实例，在训练数据集中找到与该实例最邻近的K个实例，这K个实例的多数属于某个类，就把该输入实例分类到这个类中。计算测试数据到训练数据之间的距离，假设 k 为 3，那么我们就找到距离中最小的三个点，假如 3 个点中有 2 个属于动作片，1 个属于爱情片，那么把该电影 X 分类为动作片。这种通过计算距离总结 k 个最邻近的类，按照”少数服从多数“原则

（10）k聚类算法：以距离判断点间的相似度并对数据进行聚类。导入scikitlearn库，数值计算numpy和pandas库。使用采样数据还是原始数据训练k-means。绘制散点图

对于实训项目的内容解释

猜你喜欢