文本分类(课堂笔记)

这次的文章是根据牛津大学的公开课深度学习NLP中关于文本分类的课堂笔记(其实就是一些截图了,因为后来发现这个课程比较基础)。
原视频看这里:https://www.bilibili.com/video/av9817911/?p=7

首先,文本分类都有什么类型呢?
二值分类;
单标签分类;
多标签分类;
聚类(无标签)

那么分类都有哪些方法呢?各有什么优缺点?
这个比较简单,直接截图吧。
这里写图片描述

我们常用的便是基于statistical的文本分类方法。可以把这个问题表示为P(c|d), d 代表文本的表征,c代表文本的类别。
现在我们就可以把文本分类拆分成两个步骤:
表征文本;
求出文本属于类别c的概率

那表示文本的方法有哪些呢?
这里写图片描述

求概率的模型又有哪些呢?
这里写图片描述

下面列举几个常见的模型以及其优缺点:
朴素贝叶斯:
这里写图片描述

逻辑回归:
这里写图片描述

CNN:
这里写图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42936560/article/details/81610410