主题分析流程概要


此次仅根据论文及网络资料简单整理主题分析流程和一般使用的技术 全部未展开 作为一个初步计划大纲开展后续学习 --写于2.19.4.24晚

主题分析

主题分析定义

主题分析(英语:Thematic analysis)是定性研究中最为常见的一种形式。它强调在数据中精确定位、检查和记录主题或模式。主题(英语:themes)是跨数据集的模式(英语:patterns),这些模式对于现象的描述很重要,并且与特定的研究问题相关联。

主题分析流程

  1.数据集准备 2.数据预处理 3.基于用主题模型的主题提取结果分析 4.对比实验 5.主题演变分析
  1. 数据集准备:python爬虫 八爪鱼爬虫工具 目标应用,网页

    1.1python爬虫:爬虫:一段自动抓取互联网信息的程序,从互联网上抓取对于我们有价值的信息。Python 爬虫架构主要由五个部分组成,分别是调度器、URL管理器、网页下载器、网页解析器、应用程序(爬取的有价值数据)。

    1.2八爪鱼爬虫工具:八爪鱼爬虫工具:八爪鱼网页数据采集器,是一款使用简单、功能强大的网络爬虫工具,完全可视化操作,无需编写代码,内置海量模板,支持任意网络数据抓取

  2. 数据预处理:1.剔除垃圾数据 2.去除停留词 3.分词(python)

  3. 主题模型(分析):基于概率模型的主题演化方法和基于矩阵分解的主题演化方法 。主要对动态主题在时间上的演化,及话题热度的变化和其关键词云做了分析(主题模型选择 TOT LDA DAM NMF)

    3.1基于概率模型的主题演化方法

    TOT(Topic Over Time)模型最早被提出,它是在LDA模型中引入时间因素构建而成实现简单。TOT将时间也作为可观测变量,然后与文档和单词一起生成主题。DTM( Dynamic Topic Model)先根据时间窗分割文本集合,并假设每个时间 窗口的文本都由K个话题的LDA模型生成。上述模型都是在LDA基础上,扩展改进后得到的。其思路及方法都较为简单,而且在主题个数方面都缺少灵活性。

    3.2基于矩阵分解的主题演化方法

    非负矩阵分解( Nonnegative Matrix Factoriza
    tion,NMF)是一种新的矩阵分解方法。一般的矩 阵分解,如SVD(奇异值分解), PCA(主成分分析)等都会出现分解结果中出现负值的情况。而负值在某些环境下是没有意义的,比如文本中单词的统计,数字图像中的像素等。NMF是另一种有效的提取主题的方法。处理大规模数据更快更便捷,且实现简便、占用存储空间少。

4.对比实验:采用不同的主题模型多次试验

  1. 演变分析:对动态主题随时间推移其关键词的分布变化进行分析(KM EM)

    5.1KM距离:KL距离是Kullback-Leibler差异(Kullback-Leibler Divergence)的简称,也叫做相对熵(Relative Entropy)。它衡量的是相同事件空间里的两个概率分布的差异情况。其物理意义是:在相同事件空间里,概率分布P(x)的事件空间,若用概率分布Q(x)编码时,平均每个基本事件(符号)编码长度增加了多少比特。我们用D(P||Q)表示KL距离

    5.2EM算法:最大期望算法(Expectation-maximization algorithm,又译期望最大化算法)在统计中被用于寻找,依赖于不可观察的隐性变量的概率模型中,参数的最大似然估计。在统计计算中,最大期望(EM)算法是在概率模型中寻找参数最大似然估计或者最大后验估计的算法,其中概率模型依赖于无法观测的隐变量。最大期望算法经常用在机器学习和计算机视觉的数据聚类(Data Clustering)领域。最大期望算法经过两个步骤交替进行计算,第一步是计算期望(E),利用对隐藏变量的现有估计值,计算其最大似然估计值;第二步是最大化(M),最大化在E步上求得的最大似然值来计算参数的值。M步上找到的参数估计值被用于下一个E步计算中,这个过程不断交替进行。

参考文献

《基于主题模型的新疆暴恐舆情分析_张绍武》论文在知网地址
《面向时间序列的微博话题演化模型研究》论文在知网地址
《基于MB-LDA模型的微博主题挖掘》论文在知网地址

猜你喜欢

转载自blog.csdn.net/qq_41557009/article/details/89508701