文本分析总结

文本分析

前沿不必多提,谁发明的也不做介绍了,发展历史也不关注。看本文的必定是有此需求的,说一句,看本文最好有娴熟的编程经验,本文不介绍代码,只介绍思想。想看代码的请直接移步到文末。

文本分析,就是对文本数据进行分析,量化一句话,一段文字,一首歌曲的歌词,一篇电影评论。一段文字必定表达一个思想,这个思想的关注点是什么?情感如何?带来的信息呈现出怎样的规律?废话文学除外。

首先思考,一句话是如何传递信息的?语法结构告诉我们,主谓宾、形容词、副词、定语等,简单的文本分析只涉及到词汇的统计,简单的量化,其实这不能完全包含文本分析中量化的概念,因为,一句话有大量的修饰词,修饰的词汇位置不同能带来不同的语义、情感,比如:“小明快乐地去上学。” and “快乐的小明去上学。”前者表示,去上学很快乐;后者表示,小明一直很快乐。

所以,语法在文本分析中很重要,当然了,这一点被大多数工具使用人所忽视,特别是搞经济学的操作者,忽略了语法的贡献,语言结构分析等成分被直接抛弃,这部分信息就丢失了啊。

语法结构这件事,英文的语法规则较为清晰,可以很好的量化。中文各种各样的修饰,搞懂中文语法规律也可以量化,但是大量的方言倒装让算法变成了白痴。

文本分析的核心是量化,如何量化一句话,涉及到量化目标、量化标准、量化工具等一系列问题。记住,核心是量化,举一反三,历史量化、政治量化都是一个道理,所以思维不要拘束于文本量化这一件事情上。再往深了说,量化仅仅是一种研究方法,为何要量化?因为量化后的事件可以用数学工具处理,这意味着有些事情可以不采用量化手段进行研究。

文本分析这个称呼其实是泛指,包含了文本量化和文本分析两个阶段。量化就是按照评分规则进行评分,文本分析则是利用数理工具分析量化后的指标。这个逻辑意味着什么?怎样的量化标准决定了怎样的分析结果,文本分析的结果并不完全客观。

不必害怕文本分析的量化过程,因为是这样的,评价一句话,怎么评价?一般来说,我们可以采取主观评价打分,一句话一句话的打分,现实中,我们就是这样做的,人脑直接给出答案。是不是很武断?那我们退一步,用计算机评价一句话的评分。怎么做?我们把标准给到计算机,计算机一句话一句话的读取,然后自动评价啊,像极了批改论文。

问题来了,怎么把评价标准输入计算机?

上文说过,一句话的信息构成,词汇和语法,我们将每一句话中的词汇拆解,每个词汇赋予评价标准,每个语法都赋予标准,最后计算一个一句话的综合评分就好了。

缺点呢?肯定有的。说话的语气是不是还没考虑?另外,一些富有写作技巧的文章,主题词表达含蓄。语言习惯,水浒传中的台词,哥哥来哥哥去,搞不好算法能将好汉分析成同性恋。不止这些,过度依赖文本分析带来的坏处是,一些报告为了给文本分析进行强调,就反复使用一些词汇,就为了告诉研究者们,这个信息很重要,可是最简单的方式莫过于直接附注说明。所以,不要过于依赖技术。

这样讲起来是不是很简单?可是操作呢?会编程之后很简单。

补充:印象中有一个大佬,怎么也想不起来名字了,几个月后现在想起来,叫“乔姆斯基”,已经高龄退休的大佬。

代码学习链接

https://gitcode.net/qq_42830971/text-mining

猜你喜欢

转载自blog.csdn.net/qq_42830971/article/details/126788439