NLP 文本分析

Used for self-study only; please inform us if the proper-usage is doubted.

The form of charging is not used for creating intrest but to alleviating its unrestricted  communication through open network.

文本分析或自然语言处理NLP的主要任务
文本索引与检索(Indexing and Search)
文本分类(Text Classification)
文本摘要(Document Summarization)
文本信息抽取(Text Information Extraction)
情感分析(Sentiment Analysis)

文本分类的定义(CLR)
文本分类是把文档集合中的每个文档,划分到一个预先定义的主题类别。
判断Email是正常邮件和垃圾邮件,二分类问题。
>> 新闻主题分类:判断新闻属于哪个类别,如财经、体育、娱乐等
>> 自动问答系统中的问句分类:问句类型 Chat-GPT(预训练模型+小样本学习)
>> 智慧司法: 基于案件事实描述文本的罚金等级分类(多分类)

文本分类系统的一般步骤:
1.预处理输入文本
2.特征提取,得到文本表示
3.分类器分类

对于分类器的设计,有包括k最近邻、朴素贝叶斯、支持向量机和决策树在内的许多算法。

信息抽取(IE, Information Extraction)
简称IE,即从自然语言文本中,抽取出特定的事件或事实信息,帮助我们将海量内容自动分类、提取和重构。这些信息通常包括指定类型的实体(entity)、关系(relation)、事件(event)
从新闻中抽取时间、地点、关键人物
从技术文档中抽取产品名称、开发时间、性能指标等
从自然语言中抽取用户感兴趣的事实信息,无论是在知识图谱、信息检索、问答系统还是在情感分析、文本挖掘中,信息抽取都有广泛应用。

信息抽取主要包含三大子任务
关系抽取:通常我们说的三元组(triple)抽取,主要用于抽取实体间的关系。
实体抽取与链指&#x

猜你喜欢

转载自blog.csdn.net/qq_51314244/article/details/130075007