人文社科Python文本挖掘与分析

各有关单位：
在人文社科领域科研工作中，数据的获取及分析是最重要的也是最棘手的两个环节！
在前大数据时代，一般使用实验法、调查问卷、访谈或者二手数据等方式，将数据整理为结构化的表格数据，之后再使用各种计量分析方法，对这些表格数据进行分析。但大数据时代，网络数据成为各方学者亟待挖掘的潜在宝藏，大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于人文社科类专业领域人员而言，通过Python可以帮助学者解决使用Web数据进行科研面临的难题：
网络爬虫技术解决如何从网络世界中高效地采集数据？
文本分析技术解决如何从杂乱的文本数据中抽取文本指标(变量)？
为此，Python成为人文社科研究中非常热门的一种编程语言,越来越受到学者们的重视。然而,很多学员面对Python的学习很苦恼,不知道如何学习,更不知如何进行利用。

现将具体事宜通知如下：

时间及
2023 年04月 28日-30日（网络直播+上机实操）
2023 年04月 27日-30日北京（第一天报到授课三天）
对象
人文社科领域、经济管理、教育学、公共管理、旅游、社会学、新闻传播、图书情报等领域想要掌握Python数据分析、文本挖掘的研究生、高校教师和科研人员等

内容
一、Python概述与社科领域基本使用
（1）为何用python？ python发展史
（2）基于不同人文领域的应用场景-经济、教育、社会、管理等
（3）Python环境搭建
基于Anaconda的Python环境搭建
Anaconda基本使用库版本安装UI Jupyter notebook操作
（4）Python的基本语言基础
python基础语法语言结构、数据类型、基本符号、循环、函数
python标准库使用
二、Python常用库介绍与应用面向社科领域的python库的安装和导入
（1）Pandas数据分析数据预处理. 空值、缺失值、重复值.异常值处理
（2）Matplotlib绘图
（3）sklearn机器学习
（4）PyTorch深度学习
（5）urllib爬虫
三、网络文本数据采集与预处理（1）数据的采集与清洗
（2）文本挖掘与分析概述
（3）网络爬虫原理及实战
（4）文本数据预处理及应用实践
（5）Matplotlib数据可视化(基于Pandas DataFrame的快速图表、扩展Pyecharts库）
四、Python文本分析的基础入门（1）python文本分析的流程(文本分析在社科研究中应用)
（2）文本分析基本方法
主题分析、内容分析、词袋法、监督模型、无监督学习、自然语言处理
五、文本分析进阶

   	使用机器学习做文本分析的流程

（1）scikit-learn机器学习库简介
数据预处理
数据均衡算法原理以及实践运用(过采样、欠采样、均衡采样)
（2）机器学习算法概述
监督模型、无监督模型、评价模型、时序分析模型
性能评估、混淆矩阵、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1score、十折交叉验证法
（3）基于机器学习的文本分析实战案例
基于概率朴素贝叶斯模型的垃圾邮件分类

文本数据预处理(词向量转化) 文档词袋模型
朴素贝叶斯分类器 K-mean聚类算法运用
六、如何应用Python文本分析撰写论文（1）Python文本挖掘与分析论文逻辑框架
（2）Python社科研究论文写作技巧与范文解析
辅助课程（1）疑难解答、分组讨论；
（2）学后交流、微信群、QQ 群建立；
人文社科Python QQ群群号： 821405196 （加群备注：薛洪良邀请）

人文社科Python文本挖掘与分析

猜你喜欢