半监督图卷积网络:如何在文本分类方面取得更好的效果

作者:禅与计算机程序设计艺术

1.简介

随着互联网的飞速发展、新闻、微博、微信、微博、知乎等平台快速生成海量的用户动态信息,基于用户行为习惯的新型文本分类方法成为重要研究课题之一。现有的传统文本分类方法主要是基于文本关键词、主题模型等进行分类,但这种方法由于依赖训练集数据量过小或者训练难度高而存在一些弊端,比如准确率低、泛化能力差等。为了解决这些问题,近年来越来越多的方法提出了采用无监督的方法进行文本分类。如深度学习方法、生成模型方法、聚类方法等。虽然这些方法已经取得了不错的效果,但是仍然存在着严重的数据稀疏问题、无法直接应用于真实场景的问题、参数冗余问题、分类精度低下等问题。 因此,本文将介绍一种新的无监督文本分类方法——半监督图卷积网络(Semi-Supervised Graph Convolutional Networks)。该方法借鉴深度学习中图卷积神经网络的思想,通过结合自监督学习、半监督学习、增强学习等方式,解决了传统文本分类方法存在的问题。

2.相关论文综述

首先,介绍一下传统的无监督文本分类方法:

  1. Graph Convolutional Networks (GCN) Graph Convolutional Network 是一种用于处理节点相似性的机器学习技术。它可以用来预测节点之间的相似性并建立相应的连接结构,从而对网络中的节点进行特征学习。其特点是能够捕捉局部与全局上下文关系,能够提升网络的表达力。最早的 GCN 方法是 Kipf et al., 2016 年发表的。

  2. Nonnegative Matrix Factorization (NMF) Nonnegative Matrix Factorization (NMF) 是一种矩阵分解方法,它可以将矩阵分解成多个非负因子的乘积。NMF 可以用来发现潜在主题,并且可以用它来做特征

猜你喜欢

转载自blog.csdn.net/universsky2015/article/details/131875098
今日推荐