获取数据
library(jsonlite)
url <- 'https://view.inews.qq.com/g2/getOnsInfo?name=wuwei_ww_time_line'
pre <- fromJSON(url)
data <- fromJSON(pre$data)
停词库
链接:https://pan.baidu.com/s/1m5lC6Ld-Fu5_YZtLzqQNGw
提取码:2e3i
词频
library(jiebaR)
library(ggplot2)
library(ggthemes)
#删除数字英文字母
data$desc <- gsub('[<U+0-9A-Z>]','',data$desc)
#导入停词库
wk <- worker(stop_word = 'c:/Users/wisonmon/Desktop/stop.txt')
#切词
seg <- segment(data$desc,wk)
#词频
count <- freq(seg)
#排名前20词
kw <- count[order(-count$freq),][1:20,]
kw
char freq
815 病例 395
1189 确诊 264
766 新型 258
782 冠状病毒 252
821 感染 225
883 肺炎 222
904 新增 195
1897 出院 138
684 累计 105
374 报告 103
1331 患者 101
1094 治愈 64
992 疫情 62
1209 武汉 58
1959 医院 58
1476 死亡 49
736 重症 43
933 治疗 32
1061 湖北省 29
1161 隔离 29
#绘图
ggplot(kw) +
aes(x = reorder(char,freq), weight = freq) +
geom_bar(fill = "#0c4c8a") +
labs(x = "keywords", y = "count", title = "武汉疫情关键词", caption = " ") +
coord_flip() +
theme_minimal()
词云
文字为侃大山,凑字数要求
我们可以从词云中获取关键信息,知道哪些是焦点词汇。还可以察觉出难以主观洞察或者过度关注焦点信息而忽略的次级关键信息。通过这些词汇,摸索相关信息,形成对事件更完整的整体认知。
词云还可以用不同图片作为背景,有兴趣的可以尝试一下。
#随机生成词云
library(wordcloud2)
wordcloud2(count,minSize = 3)