读取爬取的网页xml，txt格式 - 代码天地

读取爬取的网页xml，txt格式

编程语言 2018-12-16 11:20:45 阅读次数: 0

#! /usr/bin/env python
#coding=utf-8
import pandas as pd
from bs4 import BeautifulSoup
import sys
import re

fin = open('C:/Users/Care/Desktop/SOUGOU/news.sohunews.01080611.txt', 'rb') #以读的方式打开输入文件
# for i in fin:
#     print(type(i.decode('utf-8','ignore')))
#     print(i.decode('utf-8', 'ignore'))
#     break



soup = BeautifulSoup(fin,'html.parser')
pp = soup.find_all('content')
print(pp[0].get_text())
print(type(pp[0].get_text()))
with open('C:/Users/Care/Desktop/SOUGOU/a.txt','a+',encoding='utf-8') as f:
    for i in range(len(pp)):
        f.write(pp[i].get_text())
    f.close()

1.使用BeautifulSoup操作xml格式文件，pp = soup.find_all('content')得到的数据格式为<class 'bs4.element.ResultSet'>，要想得到str格式，需要进一步操作，首先得明白

<class 'bs4.element.ResultSet'> 这里是字典外套了一个列表，即textPid = pp[0],

2.textPid格式为<class 'bs4.element.Tag'>， print(textPid.get_text())即为str格式了。

3，代码with open('C:/Users/Care/Desktop/SOUGOU/a.txt','a+',encoding='utf-8') as f，是为了防止出现gbk不能编码其他特殊格式得问题。

猜你喜欢

转载自blog.csdn.net/x_iesheng/article/details/85029067

读取爬取的网页xml，txt格式

爬取网页并写入txt备份

XML格式爬取所需内容

使用jsoup爬取网页信息，保存到txt中

python爬取数据保存为txt格式

读取XML文件数据，XML数据标注格式转换为TXT格式

txt多格式读取

python爬取网页

pyspider爬取网页

爬取静态网页

网页爬取

网页源码爬取

爬取网页图片

HttpClient爬取网页

python爬虫——利用requests库BeautifulSoup定向爬取网页内容写入txt文件

php从爬虫爬取的txt文件按行读取并写入保存到excel，csv中

python读取TXT、CSV、xml

关于爬取ajax加载的网页爬取的json格式不规则修正方法，使用replace方法

（79）--爬取网页信息

Urllib库爬取网页

python动态爬取网页

Python 爬虫爬取网页

Python爬取网页图片

利用xpath爬取网页

Python爬取网页title

动态网页爬取

python 爬取静态网页

关于网页图片的爬取

PHP爬取网页内容

python爬取网页（简易）

今日推荐

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

【转】spring中对控制反转和依赖注入的理解

tms webcore 安装和使用

java程序员进阶相关书籍

SpringMVC接受请求参数、

如何保存训练好的机器学习模型

MyEclipse、Eclipse设置项目JDK的三个地方

商超行业微信小程序开发定制一般多少钱（行业技术人员解读）

Markdown编辑器语言——30分钟入门到到精通

Linux系统下MongoDB的简单安装与基本操作

Power Strings

每日归档

更多

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)