爬虫小demo

为准备大数据课设学习爬虫小项目,现在网上学习爬虫中商情报局
代码罗列如下,以备回顾

from urllib.parse import urlencode
import requests
from bs4 import BeautifulSoup
import pandas as pd
data = []
#1.url
#https://s.askci.com/stock/a/0-0?reportTime=2017-12-31&pageNum=2#QueryCondition
for i in range(1,10):
  paras = {
    
    
    'reportTime=':'2017-12-31',
    'pageNum': i
  }
  695185429
  url = 'https://s.askci.com/stock/a/0-0?' + urlencode(paras)
  print(url)

  # 2.请求资源,获取响应
  # response = requests.get(url)#这个网站不需要请求头
  # #print(response.text)
  # html = response.text
  
 #3.解析网页 工具 正则 xpath bs4  # , html ,解析库
  #第一种
  # soup = BeautifulSoup(html,'lxml')#规范化
  # #print(soup)
  #
  # tr_list = soup.find_all('tbody')
  # for data in tr_list:
  #   print(data)
  #   print(data.text.split())#只获得文字信息

  #第二种
  tb = pd.read_html(url,header=0)[3]#表
  print(tb.head())



  #数据保存  数据库
  #tb.to_csv('1.csv')
  data.append(tb)

df =pd.concat(data)
df.to_csv('2.csv')

原网站
在这里插入图片描述
运行结果:

在这里插入图片描述
在这里插入图片描述

注:因此网站没有反爬机制,所以网上很多关于中商的例子,很不错

猜你喜欢

转载自blog.csdn.net/qq_30336973/article/details/116674419