使用HTTP进行数据抓取的一般步骤如下:
1. 确定目标网站的URL地址。
2. 使用HTTP请求库(如Python中的requests库)发送HTTP请求,获取网页内容。
3. 解析网页内容,提取需要的数据。可以使用HTML解析库(如Python中的BeautifulSoup库)或正则表达式等方法进行解析。
4. 对于需要登录或者需要模拟用户操作的网站,可以使用模拟登录或者自动化测试工具(如Selenium)来模拟用户操作,获取数据。
python使用HTTP,如下,直接嵌入即可
#! -*- encoding:utf-8 -*-
import requests
# 要访问的目标页面
targetUrl = "http://ip.hahado.cn/ip"
# 代理服务器
proxyHost = "ip.hahado.cn"
proxyPort = "39010"
# 代理隧道验证信息
proxyUser = "username"
proxyPass = "password"
proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {
"host" : proxyHost,
"port" : proxyPort,
"user" : proxyUser,
"pass" : proxyPass,
}
proxies = {
"http" : proxyMeta,
"https" : proxyMeta,
}
resp = requests.get(targetUrl, proxies=proxies)
print resp.status_code
print resp.text