python读取文件夹下所有文件并进行内容提取 - 代码天地

python读取文件夹下所有文件并进行内容提取

其他 2020-07-27 10:21:23 阅读次数: 0

上网课以来，各种平台百花齐放。老师在上面发布习题，进行考试，其中微信公众号的微助教不能复制粘体老师发布的习题，针对这一情况，结合所学的知识，通过python进行数据的提取。
流程如下：
1.电脑登录微信进去答题页面，右键查看源码，保存记事本中。
2.对源码进行分析
3.结合xpath和正则进行数据提取
4.保存到另一个文件夹中

代码如下：

import re
import os
from  lxml import etree

i=0 #定义一个变量，用来记录第几题
with open("ti.txt", 'w') as file_object: #打开一个txt文件用来保存题目
    for filename in os.listdir("E:/beijing"): #所有的文件放入E盘beijing目录下，并获取文件夹下的所有文件名
        i+=1
        f = open("E:/beijing//"+filename, "r", encoding='utf-8')  # 打开文件夹下的每一个文件，以只读得方式，注意编码格式，含中文
        data = f.readlines()  # 循环文本中得每一行，得到得是一个列表的格式<class 'list'>
        f.close()
        data ="".join(data) #将列表转换为字符串
        pat = re.compile(r'<p>(.*?)</p>') #正则处理得到题目
        result = pat.findall(data)
        html = etree.HTML(data)
        div = html.xpath('//div[@class="_1yjrJA-TQbXl_8l5e6YGxh"]/text()') #xpath处理得到答案
        div=" ".join(div)
        div1 = html.xpath('//div[@class="dhiccbzLAlvLFEBjU5Y5R"]/div[2]/text()')
        div1 = " ".join(div1)
        result=" ".join(result)
        pp = "{}、问题是： ".format(i)+result+"\n我填得答案是\n"+div +"\n正确答案\n"+div1
        file_object.write("\n" + pp)

以上就是全部过程，对于学习通登平台可以直接用爬虫进行爬取，但是微助教是立足于公众号，只有通过这种稍微麻烦点的技术进行爬取。

技术不是很高，但是能解决问题，不足之处甚多，还望大神多多指教！

猜你喜欢

转载自blog.csdn.net/w5025/article/details/106954474

python读取文件夹下所有文件并进行内容提取

Python—提取文件夹下所有文件

php读取文件夹下所有内容

python 读取文件夹下所有文件名

Java读取文件夹下的文件并进行处理

python读取文件夹中的所有图片，并进行sobel处理和展示

python读取文件夹下所有图片

python中，读取文件夹下的所有图片

python对文件夹下的所有图片进行裁剪

python编写脚本读取文件夹下的所有数据并从中提取关键字数据

QT 读取文件夹下所有文件

java读取某个文件夹下的所有文件

Matlab 读取文件夹下所有文件(*.mat *.txt等)

c++读取文件夹下所有文件

读取指定文件夹下所有文件名

opencv读取文件夹下所有文件

Linux C 读取文件夹下所有文件

实现读取文件夹下所有文件

python删除某个文件夹下所有文件，包括子文件夹，实现文件夹内容清空。

Unity 获取某个文件夹下的所有图片并进行展示（亲测有效）

linux 搜索文件夹下的所有文件内容

python 读取文件夹下的所有文件并处理重新分类写入

读取文件夹下所有文件路径（python和matlab）

opencv读取文件夹下面的所有图片

java 递归删除指定文件夹下的所有内容

python+opencv 读取文件夹下的所有图像并批量保存ROI

python 读取一个文件夹下所有图像

利用python或C++读取指定文件夹下的所有图片

C# 读取文件夹下所有xml文件，用Linq的方式把内容存到DataTable表里面

python2.7 获取文件夹下所有文件

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

基本数据类型封装类比较 Java源码解读(一) 8种基本类型对应的封装类型

JS实现无缝滚动上

深入解析HashMap原理（基于JDK1.8）

mysql的连接池

关于.htc

linux下的ubuntu12.04图形界面

【数论】好推不好记的扩展欧几里德

设备树详解

cscope + tags 简单设置

xml学习

每日归档

更多

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)