07.文本分析

前言:基于人大的《数据科学概论》第七章。主要内容为文本分析的意义、文本分析的任务与方法、文本分析可视化、文本分析工具。

一、文本分析的意义

根据估算,各类组织(包括企业、政府)拥有的数据里,80%是非结构化的数据,其中大部分是文本的形式。

  • 非结构化的文本数据,包括电子邮件、博客、微博、客户反馈、医疗记录、合同文本等。
  • 这些文本里面,隐藏着潜在的价值。只有通过适当的分析方法,才能从中提取这些有价值的信息。

二、文本分析的任务与方法

1、文本分析的主要任务

包括文本索引与检索、文本分类、文本聚类、文档摘要、主题提取、命名实体识别/概念抽取/关系建模、情感分析等。

文本分析的过程包括几个主要的步骤:

  1. 采集文本数据集
  2. 运用文本分析方法分析文本
  3. 对分析结果进行可视化以及解释和评估分析结果等

2、句子切分、分词、词性标注、语法分析

(1)句子切分和分词

为了对文本进行分析,首先需要把文本切分成一个个句子。接着,需要对句子进行分词。、

(2)词性标注

词性标注(简称POS Tagger)软件,分析某种语言的文本,然后针对每个词赋予POS标记,比如名词、动词

形容词等。

(3)语法树

Parser(语法解析器)首先对句子的文本进行分词,然后进行POS标注,根据POS标注结果以及句子成分信息,找出单词/短语之间的依赖关系,最后构建句子的语法解析树,结果以有向图、或者树的形式展示。

在这里插入图片描述

3、文本索引和检索

信息(这里主要指文本)检索,是针对用户提出的信息需求,一般是以关键字表达的查询,从文档集中查找和查询相关度高的文档或者文档片段,返回给用户。

信息检索系统,一般包括四个主要部分,分别是数据预处理、索引生成、检索、结果排序等。

4、文本分类(classification)

文本分类,是把文档集合中的每个文档,划分到一个预先定义的一个主题类别。

  • 文本分类是文本分析和挖掘的一项重要工作。把电子邮箱收到的邮件,适当进行分类,分为正常邮件和垃圾邮件,就是文本分类的一个应用实例。
  • 文本分类是典型的有监督学习的例子,训练集由已经明确分好类别的文档组成,文档就是输入,对应的类别就是输出。

(1)文本分类系统的主要功能模块

  1. 预处理器。把文档集合中的文档格式化为某种模式,方便后续处理
  2. 统计。进行词频统计,词项与分类的相关概率的统计
  3. 特征抽取。从文档中抽取反映文档主题的特征。
  4. 分类器的训练。利用文档集部分文档的特征,对分类器进行训练。
  5. 进行预测。利用分类器确定其他文档额的类别。

(2)使用朴素贝叶斯算法实现文本分类

在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

(3)文本聚类

文本聚类,是把相似度大的文档放在同一类簇(为了和分类任务Classification中的类别Category分开,在这里Cluster称为类簇)中,相似度小的文档放在另外的类簇中,它是一种无监督的机器学习(没有训练集)方法。

  • 文档聚类,应用于需要对文本信息进行有效组织(Organization)、浏览(Browsing)、和摘要(Summarization)的场合。

(4)文档摘要

文档摘要是为文档抽取或者生成一个简洁的版本。

(5)主题抽取

文档的主题,是文档所描述的事物、概念等。比如一篇文档是关于美国大选的,另外一篇文档是关于欧洲冠军杯的,我们可以把这两篇文档归入政治和体育两个大的主题中。

(6)命名实体识别、概念抽取和关系抽取、事实抽取

  • 命名实体识别的目的是发现文档里的各种实体。
  • 概念抽取和关系抽取
  • 事实抽取

(7)情感分析

情感分析的应用很广泛,包括对问卷调查(Survey)、产品的用户评论(Review)、新闻(News)、博客(Blog)、论坛(Forum)、呼叫中心日志记录(Call Center Logs)等进行情感分析。

情感分析包括情感信息抽取情感信息分类以及情感信息的检索及归纳三个层次的任务。

三、文本分析可视化

四、文本分析工具

  • NLTK
  • OPEN NLP
  • Stanford NLP
  • Lingpipe
  • Gate
  • UIMA
  • Netlytic

猜你喜欢

转载自blog.csdn.net/weixin_48931875/article/details/112112766