人文社科Python文本挖掘与分析

各有关单位:
在人文社科领域科研工作中,数据的获取及分析是最重要的也是最棘手的两个环节!
在前大数据时代,一般使用实验法、调查问卷、访谈或者二手数据等方式,将数据整理为结构化的表格数据,之后再使用各种计量分析方法,对这些表格数据进行分析。但大数据时代,网络数据成为各方学者亟待挖掘的潜在宝藏,大量商业信息、社会信息以文本等非结构化、异构型数据格式存储于海量的网页中。那么对于人文社科类专业领域人员而言,通过Python可以帮助学者解决使用Web数据进行科研面临的难题:
网络爬虫技术解决如何从网络世界中高效地采集数据?
文本分析技术解决如何从杂乱的文本数据中抽取文本指标(变量)?
为此,Python成为人文社科研究中非常热门的一种编程语言,越来越受到学者们的重视。然而,很多学员面对Python的学习很苦恼,不知道如何学习,更不知如何进行利用。

现将具体事宜通知如下:

时间及
2023 年04月 28日-30日 (网络直播+上机实操)
2023 年04月 27日-30日 北京(第一天报到 授课三天)
对象
人文社科领域、经济管理、教育学、公共管理、旅游、社会学、新闻传播、图书情报等领域想要掌握Python数据分析、文本挖掘的研究生、高校教师和科研人员等

内容
一、Python概述与社科领域基本使用
(1)为何用python? python发展史
(2)基于不同人文领域的应用场景-经济、教育、社会、管理等
(3)Python环境搭建
基于Anaconda的Python环境搭建
Anaconda基本使用 库版本安装UI Jupyter notebook操作
(4)Python的基本语言基础
python基础语法 语言结构、数据类型、基本符号、循环、函数
python标准库使用
二、Python常用库介绍与应用 面向社科领域的python库的安装和导入
(1)Pandas数据分析 数据预处理. 空值、缺失值、重复值.异常值处理
(2)Matplotlib绘图
(3)sklearn机器学习
(4)PyTorch深度学习
(5)urllib爬虫
三、网络文本数据采集与预处理 (1)数据的采集与清洗
(2)文本挖掘与分析概述
(3)网络爬虫原理及实战
(4)文本数据预处理及应用实践
(5)Matplotlib数据可视化(基于Pandas DataFrame的快速图表、扩展Pyecharts库)
四、Python文本分析的基础入门 (1)python文本分析的流程(文本分析在社科研究中应用)
(2)文本分析基本方法
主题分析、内容分析、词袋法、监督模型、无监督学习、自然语言处理
五、文本分析进阶

   	使用机器学习做文本分析的流程

(1)scikit-learn机器学习库简介
数据预处理
数据均衡算法原理以及实践运用(过采样、欠采样、均衡采样)
(2)机器学习算法概述
监督模型、无监督模型、评价模型、时序分析模型
性能评估、混淆矩阵、准确率(Accuracy)、精确率(Precision)、召回率(Recall)、F1score、十折交叉验证法
(3)基于机器学习的文本分析实战案例
基于概率朴素贝叶斯模型的垃圾邮件分类

文本数据预处理(词向量转化) 文档词袋模型
朴素贝叶斯分类器 K-mean聚类算法运用
六、如何应用Python文本分析撰写论文 (1)Python文本挖掘与分析论文逻辑框架
(2)Python社科研究论文写作技巧与范文解析
辅助课程 (1)疑难解答、分组讨论;
(2)学后交流、微信群、QQ 群建立;
人文社科Python QQ群群号: 821405196 (加群备注:薛洪良 邀请)

猜你喜欢

转载自blog.csdn.net/weixin_48628148/article/details/129528920