python 学习初入爬虫 - 代码天地

python 学习初入爬虫

其他 2021-03-25 01:00:00 阅读次数: 0

1.爬取网页内容

import urllib.request as ur
import chardet as ct
response=ur.urlopen("http://www.fishc.com")
html=response.read()
result=ct.detect(html)['encoding']
html=html.decode(result)
print(html)

知识点：
urlib.request模块，可以用来请求访问网址
chadet模块可以用来，检测编码方式
ur.urlopen()函数，获得 HTTPRespone类型，用read()函数读取内容
chadet,detect()函数，获得编码方式和可信度
decoed(‘解码方式’)解码

2.写一个程序，依次访问文件中指定的站点，并将每个站点返回的内容依次存放到不同的文件中。
urls.txt文件中的站点

http://www.fishc.com
http://www.baidu.com
http://www.zhihu.com
http://www.taobao.com

test.py文件，用于读取网站内容和编码方式

import urllib.request as ur
import chardet as ct
def getresult(http):
    response=ur.urlopen(http)
    html=response.read()
    result=ct.detect(html)['encoding']
    html=html.decode(result)
    return (html,result)

主文件中，将内容放在，相应文件中

import test as t

def geturl():
    with open(r"E:\urls\urls.txt",'r') as f:
        for each in f:
            each=each.strip('\n')
            url,encode=t.getresult(each)
            each='.'.join(['E:\\urls\\',each.split('.',2)[1],'txt'])
            with open(each,'w',encoding=encode) as filewrite:
                filewrite.write(url)
geturl()

ps：本来还有豆瓣网站 http://www.douban.com 但是无法爬取，会报错，不知道什么原因。
知识点：
with语句可以控制关闭文件
.join([ ])函数，字符合并函数
strip() 函数，去除函数
元组返回参数，可以返回多个值

猜你喜欢

转载自blog.csdn.net/m0_52521883/article/details/113820821

python 学习初入爬虫

python3爬虫学习笔记（一）初入爬虫 urllib学习

Python学习记录(一)初入Python

初入 python

初入python

java初入的学习

初入机器学习

python初入江湖2

python初入江湖1

php学习初入总结

爬虫初入

Python学习笔记:初

一入爬虫深似海，从此游戏是路人！总结我的python爬虫学习笔记！

一入爬虫深似海，从此游戏是路人！总结我的python爬虫学习笔记

python_爬虫（初入门）

初入机器学习，正确安装tensorflow、python版本匹配（Import：DLL load failed等问题解决）

Python爬虫（入门+进阶）学习笔记 2-1 爬虫工程化及Scrapy框架初窥

python 之 scrapy 入门 (初入)

Python学习（爬虫学习）

python VTK 初入门学习

python之爬虫requests模块初应用

Python【2】：初入python 用户输入，if，（while 循环）

001-小白学python-初入python世界

Python爬虫学习

Python爬虫学习（五）

Python爬虫学习（四）

Python爬虫学习（三）

Python爬虫学习（二）

Python爬虫学习（一）

python爬虫专栏学习

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

SVN服务端安装在阿里云

实战 | 相机标定

webpack核心概念

note20——》只要肯低头吃苦，人生就会有救

PAT甲级 1062 Talent and Virtue （25 分）排序

NG Toolset开发笔记--5GNR Resource Grid（26）

如何对待上司

oracle命令

第9章 STL迭代器

logstash使用es映射模板

每日归档

更多

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)