scrapy 简单爬虫实验 - 代码天地

scrapy 简单爬虫实验

其他 2018-04-25 17:25:08 阅读次数: 3

利用python的模块requests来爬取百度搜索出来的url

使用环境为python3

#!/use/bin/env python
# -*- coding:utf-8 -*-
import requests
import re
key_word = '编程语言' #搜索关键字
# 百度的一个简单搜索url
url = 'https://www.baidu.com/s?&rsv_spt=1&rsv_iqid=0xde1c4732000302f0&issp=1&f=8&rsv_bp=0& 
rsv_idx=2&ie=utf-8&tn=sitehao123_15&rsv_enter=1&rsv_sug3=12&rsv_sug1=12&rsv_sug7=100& 
sug=%25E7%25BC%2596%25E7%25A8%258B%25E5%2585%25A5%25E9%2597%25A8&rsv_n=1'
# 设置客户端的浏览器型号
headers = { 
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) 
Chrome/66.0.3359.117 Safari/537.36'
}


with open('%s.txt' % key_word, 'w') as f:  # 打开一个文件写入
   for i in range(3):
      data = {    # 给出一个参数 用于给url传递参数 例如： http://www.baidu.com?wd=key_word&pn=10
          'wd': key_word,
          'pn': i*10
      }   

      response = requests.get(url, headers=headers, params=data) #使用requests模块传递3个参数 url，headers，params
      html = response.text   # 下载好的 html代码
      
      # 使用正则表达式过滤出需要的url
      urls = re.findall(r'<div class="result c-container ".*?"(http://www.baidu.com/link\?url=.*?)".*?</div>', html, re.S)

      real_urls = [] # 设置一个空数列
      for u in urls:
         res = requests.get(u, headers=headers)  #过滤出需要的url
         real_urls.append(res.url)               #将结果放进空列表
    
      for item in real_urls:    #循环写入到文件
         f.write(item)
         f.write('\n')

　　

猜你喜欢

转载自www.cnblogs.com/kuku0223/p/8946014.html

scrapy 简单爬虫实验

scrapy简单爬虫（一）

Scrapy爬虫简单实例

scrapy爬虫简单案例

scrapy专利爬虫（一）——scrapy简单介绍

scrapy爬虫框架简单实例

通过scrapy实现简单爬虫

Scrapy框架简单爬虫demo

Python爬虫----Scrapy的简单使用

超简单的Scrapy爬虫框架

基于Scrapy框架的简单爬虫

爬虫scrapy

scrapy爬虫

爬虫---scrapy

scrapy 爬虫

爬虫_scrapy

[爬虫框架scrapy]scrapy的安装

Scrapy爬虫笔记(scrapy、scrapy-redis、scrapyd部署scrapy)

scrapy爬虫与反爬虫

网络爬虫（三）：简单使用scrapy

做一个简单的scrapy爬虫

Scrapyd 在Linux下简单部署Scrapy爬虫

scrapy爬虫框架简单入门实例（一）

scrapy爬虫框架简单入门实例（二）

Python爬虫 --- 2.3 Scrapy 框架的简单使用

Python爬虫框架scrapy简单学习

爬虫之scrapy简单案例之猫眼

Python爬虫5.1 — scrapy框架简单入门

web爬虫讲解—Scrapy框架爬虫—Scrapy安装—Scrapy指令

Scrapy框架的使用之Scrapy通用爬虫

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

周排行

Python环境安装与基础语法（1）——计算机基础知识

IMU预积分

ADAS中的LDW、FCW、BSD、LCA、ACC、AEB、APA、DMS代表的含义

B站笔试两道题

skyeye arm 硬件虚拟机环境的搭建

Web前端静态页面示例

数组-合并排序数组 II-简单

springcloud之版本问题启动报错

面向对象-------------匿名对象(六)

输入URL到页面呈现中间发生了什么？

每日归档

更多

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)