分布式爬虫(5)：微博数据爬取 - 代码天地

分布式爬虫(5)：微博数据爬取

其他 2018-10-27 16:18:21 阅读次数: 0

一、使用Selenium+Phantoms来抓取数据

　　　　1.登录：最重要的是设置User-Agent，否则无法转跳链接　

from selenium.webdriver.common.desired_capability import DesiredCapabilities
user_agent=(
　　"Mozilla/5.0()"

)

　　　　2.输入用户名和密码：

<input id="loginname"
type="text"
class="W input" maxlength="128"
autocomplete="off"
action-data="text=........"
name="username"
node-type="username" 
tabindex="1">

　　　　(1)为了与微博内容交互，需要用到javascript

　　　　　　相关的javascript代码：

　　　　　　document.getElementById('loginname').value='abc'

　　　　　　document.getElementsByName('password')[0].value='abc'

　　　　　　通过Selenium提供的send_keys来进行传递value

　　　　　　driver.find_element_by_id('loginname').send_keys(username)

　　　　　　driver.find_element_by_name('password').send_keys(password)

二、微博接口分析

三、直接调用微博API来抓取

四、表单及登录

四、表单及登录

猜你喜欢

转载自www.cnblogs.com/bigdata-stone/p/9861479.html

分布式爬虫(5)：微博数据爬取

爬虫.多机并行的微博爬取.分布式系统设计

python网络爬虫（10）分布式爬虫爬取静态数据

基于scrapy的分布式爬虫（5）：伯乐在线文章爬取

微博爬虫搭建为分布式

爬虫实例利用Ajax爬取微博数据

Python爬虫框架Scrapy爬取微博数据

Python爬虫之微博评论数据的爬取（十）

【python爬虫-爬微博】爬取王思聪所有微博数据

爬虫实战之分布式爬取知乎问答数据

分布式爬虫----当当网图书数据爬取

scrapy-redis 分布式爬虫爬取前程无忧的岗位数据

python爬虫---CrawlSpider实现的全站数据的爬取,分布式,增量式,所有的反爬机制

爬取微博数据

微博爬取数据

爬虫爬取新浪微博

python爬虫：爬取微博主页

运用scrapy框架爬取数据的流程和组件Scrapy_redis分布式爬虫的应用

Python爬虫教程-新浪微博分布式爬虫分享

六个步骤学会使用Python爬虫爬取数据(爬虫爬取微博实战)

Redis分布式爬取

爬取微博数据帖子整理

尝试Ajax数据爬取微博

爬取微博

基于scrapy的分布式爬虫抓取新浪微博个人信息和微博内容存入MySQL

Python 分布式爬虫框架 Scrapy 4-1 待爬取网站及爬取策略说明

如何利用网站的分布式部署（多IP）提高爬虫爬取速度？

scrapy分布式爬虫部署-- 爬取知乎用户为例

Scrapy分布式爬虫打造搜索引擎——（二） scrapy 爬取伯乐在线

21天打造分布式爬虫-Selenium爬取拉钩职位信息（六）

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

循环神经网络（rnn）讲解

Tigao教程四：单独的关节运动

金蝶K3WISE15.0-注册套打教程

如何在Mac上配置Kubernetes

Android应用结束自身进程的方法

SpringMVC学习十三拦截器栈

中国驻洛杉矶总领馆举行新春招待会

HttpClient get post 发送

11 - three.js 笔记 - 绘制三维字体模型

Mysql递归获取某个父节点下面的所有子节点和子节点上的所有父节点

每日归档

更多

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)