淘宝定向爬取-MOOC学习笔记 - 代码天地

淘宝定向爬取-MOOC学习笔记

其他 2018-06-03 21:57:50 阅读次数: 1

　　在学习了request库之后有跟着视频学习过中国最好大学排名的爬取，不过很尴尬的是，我的返回是个空值。？？！！？？

　　在自己尝试了N次以后还是不清楚问题出在哪里，这就是水平不过的体现了，所以这次我又接下去学习了淘宝定向爬取，皇天不负有心人，这次居然一次就成功了，我感谢天感谢地，感谢UP主！

　　虽然还有很多不清楚的地方，代码也不能够写得尽善尽美，但是能够有一丢丢的成果，那终归是要努力的。

 1 import requests
 2 import re
 3 
 4 def getHTMLText(url):
 5     try:
 6         r = requests.get(url, timeout = 30)
 7         r.raise_for_status()
 8         r.encoding = r.apparent_encoding
 9         return r.text
10     except:
11         return ""
12     
13     # 关键
14 def parsePage(ilt, html):
15     try:
16         plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"', html)   # 价格信息
17         tlt = re.findall(r'\"raw_title\"\:\".*?\"', html)       # 商品名称
18         for i in range(len(plt)):
19             price = eval(plt[i].split(':')[1])
20             title = eval(tlt[i].split(':')[1])
21             ilt.append([price, title])
22     except:
23         print ('')
24 
25 def printGoodsList(ilt):
26     tplt = "{:4}\t{:8}\t{:16}"  #规定位置 第一个长度为4 二为8
27     print(tplt.format("序号", "价格", "商品名称"))   # 打印表头
28     count = 0
29     for g in ilt:
30         count = count + 1
31         print(tplt.format(count, g[0], g[1]))
32         
33 def main():
34     goods = '魅族pro6s手机壳'
35     depth = 2
36     start_url = 'https://s.taobao.com/search?q=' + goods
37     infoList = []
38     for i in range(depth):
39         try:
40             url = start_url + '&s=' + str(44*i)
41             html = getHTMLText(url)
42             parsePage(infoList, html)
43         except:
44             continue
45     printGoodsList(infoList)
46 
47 main()

淘宝定向爬取

猜你喜欢

转载自www.cnblogs.com/canvas2018/p/9130632.html

淘宝定向爬取-MOOC学习笔记

python爬虫学习淘宝页面定向爬取 DAY5

python：淘宝商品信息定向爬取

python定向爬取淘宝中商品的名称和价格

Python学习---爬取淘宝宝贝

Python爬取淘宝商品失败---解决：淘宝的反爬虫机制 - http重定向问题

Python网络爬虫之爬取淘宝网页页面 MOOC可以运行的代码

爬虫学习--MOOC爬取豆瓣top250

爬取淘宝商品

Python爬取淘宝

爬取淘宝实例

Python爬虫入门实例五之淘宝商品信息定向爬取(优化版)

python学习之爬取淘宝商品信息

Python爬虫（入门+进阶）学习笔记 1-8 使用自动化神器Selenium爬取动态网页（案例三：爬取淘宝商品）

Python爬取淘宝图片

python 爬取淘宝信息

python + selenium爬取淘宝

python 爬取淘宝商品

爬取淘宝页面信息

python爬取淘宝数据

xpath爬取mooc网课程

xpath爬取mooc网课程

Python爬虫实例之淘宝商品比价定向爬取！爬虫还是很有意思的！

pyspider爬取淘宝美眉的图片

爬取千万淘宝商品的python脚本

python爬取淘宝商品数据

Scrapy基于selenium结合爬取淘宝

爬虫系列之淘宝商品爬取

使用Selenium爬取淘宝商品

Python3——爬取淘宝评论

今日推荐

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

周排行

NEFU 117 素数个数的位数

Closest Common Ancestors (Lca,tarjan)

ELK部署

【转载】Hive笔记整理（三）

SQL语句（一）基本表的定义

关于Java web开发中的MySQL的事务语句

MFC创建自定义窗体

如何用一句话激怒程序员？

《逆袭大学》文摘——9.4 基础和应用的平衡中找到大学的节奏

【spring源码分析】@Value注解原理

每日归档

更多

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)