【数据应用案例】知乎瓦力机器人识别“阴阳怪气”回复

案例来源:@AI科技评论

1. 目标:知乎中有“你可真是棒棒的”、“你开心就好”等评论,识别并过滤这些评论有助于提高社区讨论质量

2. 数据获取:
1)根据“举报”和“踩”,得到“阴阳怪气”样本
2)通过同义词替换,扩大样本量
3)根据提取的阴阳怪气样本,随机构造评论做数据增强,提高模型泛化能力

3. 特征工程
1)文本特征:加入阴阳怪气词库后,进行分词,保留标点、表情
2)数值特征:句子长度,句号数量,感叹号数量
3)embedding特征:利用知乎全量文本数据训练word2vec模型,

4. 分类器:
1)采用CNN做分类器,原因是可以捕获字词的位置关系
2)对评论上文和评论本身分别训练CNN模型,训练各自参数
3)然后 评论上文的卷积输出进行 dot-attention 目的是获取评论上文与评论不同的权重
4)最后将特征数据全连接层以 softmax 方式进行分类

5. 效果示例

6. 缺陷:
1)样本不足
2)出现过拟合,如“哈哈哈”容易错分为阴阳怪气样本

7. 改进点
1)通过主动学习(Active Learning)提高标注样本量
2)加入语义分析信息

3)背景知识:对于体育、明星等领域单独建模



猜你喜欢

转载自blog.csdn.net/u013382288/article/details/80907853