一个很小的爬虫，演示了爬一首词，后存进txt文件中去 - 代码天地

一个很小的爬虫，演示了爬一首词，后存进txt文件中去

其他 2019-09-01 15:41:38 阅读次数: 0

一个很小的爬虫，演示了爬一首词，后对数据进行清洗，后存进txt文件中去

import requests,re
from bs4 import BeautifulSoup

url="https://trade.500.com/sfc/"
url2="https://so.gushiwen.org/shiwenv_4d3b4d132c82.aspx"

req=requests.get(url2)
if req.status_code==200:
    if req.encoding=="gbk" or req.encoding=="ISO-8859-1":
        html = req.content.decode("GBK")
    else:
        html=req.text

    soup = BeautifulSoup(html, 'lxml')

    # 使用正则来查找
    # 查找标签是h1-h7的所有数据
    # result=soup.findAll(re.compile("h[1-7]"))
    # 查找标签是a的所有数据，加一个找内容包含有“500”字的所有标签与内容
    # result2=soup.findAll("a",text=re.compile(".*(500)+.*"))
    #查找外链的相关信息,即href="http://..."或"https://..."
    # result3=soup.findAll("a",attrs={"href":re.compile("^(http\:)|^(https\:).*")})

    #使用导航树来查找
    # soup.body.children
    # soup.body.descendants
    # soup.body.find("div").next_siblings
    # soup.body.find("div").parent

    #得到所有源码
    # print(soup)
    #获取标题：
    title=soup.findAll("h1")
    title=[x.text for x in title]
    title="".join(title)
    print(title)
    #获取内容：
    # content=soup.body.findAll("div",id="contson4d3b4d132c82")
    content=soup.body.findAll("div",attrs={"id":"contson4d3b4d132c82"}) #效果同上一句
    content=[x.text for x in content]

    #数据内容清洗：
    content = "".join(content).strip()  #去空格
    # content=re.sub("原字符","替换的字符",content)
    # content=re.sub("\(.*?\)","",content) #.*?是懒惰匹配，不用？就是无敌匹配
    print(content)

    #最后写入txt文件中
    with open(f"{title}.txt","w",encoding="utf-8") as f:
        f.write(title+"\n"+content)




else:
    print("连接不成功，请检查程序及网络？")

猜你喜欢

转载自www.cnblogs.com/yiyea/p/11442405.html

一个很小的爬虫，演示了爬一首词，后存进txt文件中去

【一首小诗】每一个难捱的日子都是一首诗

中秋改词一首

高中时期的一首(诗,词)

一首情歌都比一个亲吻更长

一首歌一个故事

运用爬虫做了一个项目:输入一首歌的名字，输出该歌曲的歌词

五分钟写一个小爬虫，爬取小说并写入txt文件

一个很小的问题

一首好诗

赋诗一首

诗一首

一首诗

情诗一首

一首三声韵脚的词

爬取网易榜单云音乐--一首

一个系统的产生是如此的美妙，像一首午夜曲~~~

《她的声音，每一首歌都是一个驿站》

每日一首古诗，每日一个桌面壁纸

诗一首：一个程序员的浪漫爱情

记录一个很小的问题

摘抄一首小诗

原创小诗一首

Scrapy爬取全网小说到本地TXT，Python少年最爱的一个爬虫项目！

一个简易的Python爬虫，将爬取到的数据写入txt文档中

和我一起写一个音乐播放器，听一首最伟大的作品

把多个txt文件合成一个txt文件

Python读取一个txt文件

分享5首抖音热门歌曲，每一首都是经典，写进心坎里的词

信口吟咏的新作一首

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

女程序员是这样被恶搞的

B/S 和 C/S 的优缺点

vector一直申请会怎样？

座头鲸识别比赛(Humpback Whale Identification)总结

Linux高性能服务器编程——I/O复用 select

Mysql连接数据库（当包使用）

通过URI获取的文件路径为null的解决方法

1022-Primes on Interval(素数筛选+二分查找) ZCMU

Python出现： TypeError: expected string or buffer

bzoj2434: [Noi2011]阿狸的打字机 ac自动机+树状数组

每日归档

更多

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)