Python网络爬虫之爬取淘宝网页页面 MOOC可以运行的代码 - 代码天地

Python网络爬虫之爬取淘宝网页页面 MOOC可以运行的代码

其他 2018-11-25 17:17:19 阅读次数: 0

版权声明：转载请声明原文链接地址，谢谢！ https://blog.csdn.net/weixin_42859280/article/details/84429707

可以实现功能的全部代码：

import requests
import re


def getHTMLText(url):
    try:
        r = requests.get(url, timeout = 30)
        r.raise_for_status()
        r.encoding = r.apparent_encoding
        return r.text
    except:
        return ""

def parsePage(ilt, html):
    try:
        plt = re.findall(r'\"view_price\"\:\"[\d\.]*\"',html)
        tlt = re.findall(r'\"raw_title\"\:\".*?\"',html)
        for i in range(len(plt)):
            price = eval(plt[i].split(':')[1])
            title = eval(tlt[i].split(':')[1])
            ilt.append([price,title])
    except:
            print("")

def printGoodsList(ilt):
    tplt = "{:4}\t{:8}\t{:16}"
    print(tplt.format("序号","价格","商品名称"))
    count = 0
    for g in ilt:
          count = count + 1
          print(tplt.format(count,g[0],g[1]))
          
def main():
    goods = '书包'
    depth = 2
    start_url = 'https://s.taobao.com/search?q=' + goods
    infoList = []
    for i in range(depth):
        try:
            url = start_url + '&s=' + str(44*i)
            html = getHTMLText(url)
            parsePage(infoList, html)
        except:
            continue
    printGoodsList(infoList)

main()

运行示例：
在这里插入图片描述
无论爬取什么网页都要先看看robots协议。
淘宝的robots协议：

User-agent: *
Disallow: /

在这里插入图片描述
但是，我们模仿人一样的频率去爬去就没事啦。
程序的结构设计：
步骤1：提交商品搜索请求，循环获取页面
步骤2：对于每个页面，提取商品名称和价格信息
步骤3：将信息输出到屏幕上

查看源代码：价格在view_prince里面。
在这里插入图片描述

要注意对齐的方式，这样就没错误：
在这里插入图片描述
但是这样就会报错：

在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/weixin_42859280/article/details/84429707

Python网络爬虫之爬取淘宝网页页面 MOOC可以运行的代码

Python，自己修改的爬去淘宝网页的代码解决Python爬虫爬取淘宝商品信息也不报错，也不输出信息

python爬虫爬取淘宝网页

python爬取淘宝网页信息

网络爬虫之Requests库及爬取网页的通用代码框架

python爬取淘宝页面cookie requests库和re正则表达式库（最新）中国大学MOOC嵩天Python网络爬虫与信息提取cookie

使用python代码写一个可以爬取动态网页的爬虫

人生苦短之爬虫爬取网页的通用代码框架

python爬虫爬取淘宝网商品信息

python爬虫实战练手——————淘宝网站的爬取

网络爬虫——淘宝网页面分析思路

[python]MOOC上的爬虫代码

python爬虫之requests库传递cookies(爬取2019淘宝网商品列表)

Python网络爬虫与信息提取（一）——Requests库的安装、Requests库的get()方法、爬取网页的通用代码框架

Python网络爬虫之制作股票数据定向爬虫以及爬取的优化可以显示进度条！

2.零基础系统学习Python爬虫之爬取网页的通用代码框架

Python示例代码之爬取网页中的表格

python爬虫实例，一小时上手爬取淘宝评论（附代码）

Python爬虫实例，一小时上手爬取淘宝评论(附代码)！

python网络爬虫与信息提取mooc------爬取实例

你以为Python爬虫只能爬取网页数据吗？APP也是可以的呢！

python网络爬虫--爬取淘宝联盟

淘宝定向爬取-MOOC学习笔记

Python网络爬虫信息提取mooc代码实例

网页页面自动刷新代码

Python网络爬虫之网络爬虫的“盗亦有道”和Requests库网络爬取实战学习笔记手札及代码实战

Python基础项目——利用Python爬虫爬取淘宝网某类商品的图片

Python爬虫模拟浏览器的headers、cookie，爬取淘宝网商品信息

图片爬虫工具，可以爬取指定网页的图片

爬虫学习之18：使用selenium和chrome-headerless爬取淘宝网商品信息（异步加载网页）

今日推荐

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

GCC 14.1 发布

面壁智能发布 Eurux-8x22B 开源大模型 —— 堪称「理科状元」

开源日报 | 谷歌扶持鸿蒙上位；开源Rabbit R1；Docker加持的安卓手机；微软的焦虑和野心；海尔电器把开放平台关了

中国码农的“35岁魔咒”

蘭雅 CorelDRAW 插件 2024.5.1 国际劳动节版，免费下载

Arc Browser for Windows 1.0 正式 GA

90后程序员开发视频搬运软件、不到一年获利超 700 万，结局很刑！

周排行

Java自定义时间格式

同步整形电路

在开发中最最最常用的字符串的属性大集合

Linux 查看端口占用并杀掉

Java基础四：ArrayList

多线程之死锁就是这么简单

mysql 基础命令集

awk 命令详解

Centos6.3编译安装nginx+php步骤

OCR （Optical Character Recognition，光学字符识别）

每日归档

更多

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)

2024-05-03(19)

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)