用python进行excel全文词频统计，并标记是哪一分类 - 代码天地

用python进行excel全文词频统计，并标记是哪一分类

物联网 2023-04-08 14:16:21 阅读次数: 0

import pandas as pd
import jieba
from collections import Counter

# 读取 Excel 文件
df = pd.read_excel('your_excel_file.xlsx')

# 定义函数用于分词和统计词频
def word_freq(content):
    # 对文章内容进行分词
    words = jieba.cut(content)
    # 统计词频
    return Counter(words)

# 创建新的数据框
new_df = pd.DataFrame(columns=['智库名称', '主题', '词语', '词频'])

# 遍历每个智库名称和主题
for think_tank in df['think_tank_name'].unique():
    for topic in df['type'].unique():
        # 筛选符合条件的行，并将文章内容合并为一个字符串
        temp_df = df[(df['think_tank_name']==think_tank) & (df['type']==topic)]
        content = ''.join(temp_df['art_content'].tolist())
        # 进行分词和统计词频
        freq = word_freq(content)
        # 将统计结果写入新数据框
        for word, count in freq.items():
            new_df = new_df.append({
                '智库名称': think_tank,
                '主题': topic,
                '词语': word,
                '词频': count
            }, ignore_index=True)

# 将新数据框存储到 Excel 文件中
new_df.to_excel('new_excel_file.xlsx', index=False)

用python，要根据excel的think_tank_name列下不同智库，art_content列下是文章内容，type列下有不同主题。词频统计根据的是文章内容，把不同智库的每个主题的词频统计放到新建的excel表里

猜你喜欢

转载自blog.csdn.net/EaSoNgo111/article/details/129995417

用python进行excel全文词频统计，并标记是哪一分类

excel如何快速统计出某一分类的最大值？

python jieba分词及中文词频统计

英文词频统计

中文词频统计

用 Python 对 Excel 表格内数据进行去重、分类，标记异常及分析

同一分类测试

[Paddle领航团python基础课程大作业一]英文词频的统计任务

【Python】Tips: Python语言中，Hamlet英文词频统计

中文词频统计中文词频统计

组合数据类型，英文词频统计 python

Python实现英文词频统计：以hamlet为例

python入门小程序：英文词频统计

Python实现简单中文词频统计示例

python简单易懂英文词频词汇统计

完整的英文词频统计

python进行分词及统计词频

使用python进行“中文词频分析”学习笔记

Python3原生爬虫获取熊猫直播某一分类下的主播人气并保存到Excel

Python 用一行代码完成词频统计与分析，词频分析如此简单

C++统计英文词频

完整的中英文词频统计

中英文词频统计

作业——04 中文词频统计

中文词频统计与词云生成

8.2 英文词频统计(project)

python 读取TXT 文档进行词频统计

Python3进行词频统计

03 使用spark进行词频统计【python】

大作业+补交作业 python基础综合练习：英文词频统计中文词频统计网络爬虫基础练习获取全部校园新闻

今日推荐

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

周排行

阿里云短信服务平台注册

Windows下的字符串处理(1)

sqoop: mysql导入数据到hdfs, hive, hbase

commons.lang中常用的工具类

离线安装PostgreSQL11.6

使用PyTorch简单实现卷积神经网络模型

一文彻底搞定谱聚类

一道面试题引发的血案

One Chat for Mac(聊天工具)

TCP/IP的底层队列是如何实现的？

每日归档

更多

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)