【Python与经管学术】关键词词频统计与输出(按年度统计) - 代码天地

【Python与经管学术】关键词词频统计与输出(按年度统计)

企业开发 2023-06-05 01:28:52 阅读次数: 0

import pandas as pd
from collections import defaultdict
import datetime

def read_excel(file_path):
    df = pd.read_excel(file_path)
    return df

def keyword_filter_and_count_by_year(df, company_column, date_column, text_column, keywords):
    df[date_column] = pd.to_datetime(df[date_column]).dt.to_period('Y')
    grouped_data = df.groupby([company_column, date_column])

    summary_data = []

    for (company, year), group in grouped_data:
        num_filtered_rows = 0
        keyword_counter = defaultdict(int)

        for index, row in group.iterrows():
            text = row[text_column]
            row_keywords = set()
            for keyword in keywords:
                if keyword in text:
                    row_keywords.add(keyword)
                    keyword_counter[keyword] += 1

            if row_keywords:
                num_filtered_rows += 1

        keyword_counts = {k: keyword_counter[k] for k in keywords}
        summary_data.append((company, year, num_filtered_rows, *keyword_counts.values()))

    return summary_data

def write_to_excel(summary_data, output_file_path, keywords):
    columns = ['证券代码', '年份', '包含关键词的提问个数'] + keywords
    summary_df = pd.DataFrame(summary_data, columns=columns)
    summary_df.to_excel(output_file_path, index=False)

def main():
    input_file_path = "   "
    output_file_path = '   '
    company_column = 'Symbol'
    date_column = 'QuestionDate'
    text_column = 'QuestionContent'
    keywords = [    ]

    df = read_excel(input_file_path)
    summary_data = keyword_filter_and_count_by_year(df, company_column, date_column, text_column, keywords)
    write_to_excel(summary_data, output_file_path, keywords)

if __name__ == '__main__':
    main()

猜你喜欢

转载自blog.csdn.net/m0_56120502/article/details/130445069

【Python与经管学术】关键词词频统计与输出(按年度统计)

[Python与经管学术]关键词词频统计与输出

Python3 利用openpyxl 以及jieba 对帖子进行关键词抽取 ——对抽取的关键词进行词频统计

4.2 词频统计提取关键词

Jieba进行词频统计与关键词提取

excel 通过SUMIF关键词统计词频

文章关键词统计

python词云图词频统计

python词频统计生成词云

Python实现词频统计的词云图——读取文本并输出对应的词云图

如何爬取CSDN全站综合热榜标题，顺便统计关键词词频｜爬虫案例

python 统计词频，过滤词频小于2的词

单线程解析文件，根据文件关键词进行统计，并将结果输出(二)

单线程解析文件，根据文件关键词进行统计，并将结果输出(一)

词频统计及词云绘制

gz文件统计关键词出现次数

英语文档之关键词统计

统计Java程序中关键词的出现次数

使用 AWK 统计文本中匹配关键词的个数

利用python实现简单词频统计、构建词云

使用Python统计文件中词频，并且生成词云

Python——对淘宝评论词频统计并生成词云图

使用python读取word统计词频并生成词云

python将字典中统计的词频按顺序排列

Python文本词频统计

python词频统计

Python 词频统计

python实现词频统计

Python 简易词频统计

统计词频 -- Python

今日推荐

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

周排行

rbac——界面、权限

Apache CXF + SpringMVC 整合发布WebService

so插件化

Vue.js实战系列---图标字体制作（svg格式）

PAT乙级 1007 素数对猜想(孪生素数对) (20分) ---（C语言 + 详细注释）

被IRM保护的文档，打开失败

Calendar和Date计算日期差的小问题

win10子系统ubuntu18.4安装docker

利用Wrap Shell Script定位Android Native内存泄漏

MySQL: Transaction (Part I - Basic Concept)

每日归档

更多

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)