爬虫的介绍

互联网中最有价值的便是数据，比如天猫商城的商品信息，链家网的租房信息，雪球网的证券投资信息等等，这些数据都代表了各个行业的真金白银，可以说，谁掌握了行业内的第一手数据，谁就成了整个行业的主宰，如果把整个互联网的数据比喻为一座宝藏，那我们的爬虫课程就是来教大家如何来高效地挖掘这些宝藏，掌握了爬虫技能，你就成了所有互联网信息公司幕后的老板，换言之，它们都在免费为你提供有价值的数据。

流程图

爬取代码

import requests

from lxml import etree
from urllib.parse import urlencode


class jingdong(object):
    # 初始化操作
    def __init__(self):
        # 发送得请求地址
        url = " https://search.jd.com/Search?keyword=%E6%89%8B%E6%9C%BA&enc=utf-8&qrst=1&rt=1&stop=1&spm=2.1.0&vt=2&page=3&s=56&click=0"
        #  请求头
        self.headers = {
            'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36'}
        #  发送请求
        self.response = requests.get(url=url, headers=self.headers)

    def run(self):
        # 解析数据
        data = self.response.content.decode()
        #  格式转换
        x_data = etree.HTML(data)
        #  解析图片
        result_urlImg = x_data.xpath(
            '//li/div[@class="gl-i-wrap"]/div[@class="p-img"]/a[@target="_blank"]/img[@class="err-product"]/@source-data-lazy-img')
        #  标题
        result_title = x_data.xpath(
            '//li/div[@class="gl-i-wrap"]/div[@class="p-name p-name-type-2"]/a[@target="_blank"]/em/text()')
        #  价格
        result_price = x_data.xpath('//li/div[@class="gl-i-wrap"]/div[@class="p-price"]/strong/i/text()')

        output = ""
        for index, url in enumerate(result_urlImg):
            output += result_title[index] + "\t" + result_price[index] + "\t" + "http:" + result_urlImg[index]+"\r"
        #  将内容输出到文件中
        with open('D:\HOME\python\Text04\\text01\\1.txt', 'w')as ouput:
            ouput.write(output)


if __name__ == '__main__':
    # 调用函数启动
    jingdong().run()

现在就分享到这里了对你帮助的化点赞关注

lhh学bg

发布了43 篇原创文章 · 获赞 47 · 访问量 17万+

私信关注

Python爬取京东商品信息（方式①）

爬虫的介绍

流程图

爬取代码

猜你喜欢