python:关于爬虫的一些例子

import requests
import re

代码块儿可单独运行,需加模块导入

1.爬取商品内容

url="https://item.jd.com/6946605.html"
try:
    r=requests.get(url)
    print(r)
    r.raise_for_status()#提升状态
    r.encoding=r.apparent_encoding#编码
    print(r.text[:1000])
except:
    print("爬取失败")

get的信息提交

kv={'user-agent':'Mozailla/5.0'}
r=requests.get(url,headers=kv)#headers标题


kevword="要提交的信息"
kv={'wd':kevword}
r=requests.get("http://www.baidu.com/s",params=kv)#params参数

爬取百度信息

keyword="CSDN流年博客"
try:
    kv={'wd':keyword}
    r=requests.get("http://www.baidu.com/s",params=kv)
    print(r.request.url)#转为链接<Response [200]>状态转型
    # r.raise_for_status()#提升状态
    print(len(r.text))
except:
    print("爬取失败")

爬取ip地址

url="http://www.ip138.com/ips138.asp?ip="

r=requests.get(url+'202.204.80.112')
r.raise_for_status()
r.encoding=r.apparent_encoding
zz=r.text
ze="<li>.*?</li>"
pp = re.findall(ze, zz)  # 从zz检索ze
print(pp)
# 正则 re.findall  的简单用法(返回string中所有与pattern相匹配的全部字串,返回形式为数组)
# 语法:
# findall(pattern, string, flags=0)
发布了51 篇原创文章 · 获赞 8 · 访问量 1839

猜你喜欢

转载自blog.csdn.net/weixin_42393424/article/details/103724413
今日推荐