爬取新浪微博 - 代码天地

爬取新浪微博

其他 2018-05-01 18:04:35 阅读次数: 3

崔庆才

学到的东西。

　　1 习惯用logger，而不是用print

self.logger.debug('{}开始解析'.format(response.url))

　　2 习惯用正则表达式

s = '5分钟前'

if re.match('\d+分钟前',s):
    minute = re.match('(\d+)',s).group(1)
    datetime = time.strftime('%Y-%m-%d %H:%M',time.localtime(time.time()-float(minute)*60))

    print(datetime)

　　3 time模块都快忘干净了吧

　　4 eval的妙用，还可以这样用！

　　注释的是lowB代码。如果字段更多，更显的low。

　　学到了

    def parse_detail(self,response):
        self.logger.debug('{}开始解析'.format(response.url))
        item = YQtem()
        title = response.css('body > div.wrap > div.mainbox > div.main2 > div.left > div.title > strong > a::text').extract_first()
        author = response.css('body > div.wrap > div.mainbox > div.main2 > div.right > div.autherinfo > div.au_name > p:nth-child(2) > a::text').extract_first()
        popularity = response.css('body > div.wrap > div.mainbox > div.main2 > div.left > div.num > table > tbody > tr > td:nth-child(2)::text').extract_first()
        count = response.css('body > div.wrap > div.mainbox > div.main2 > div.left > div.num > table > tbody > tr > td:nth-child(4)::text').extract_first()
        # item['title'] = title
        # item['author'] = author
        # item['popularity'] = popularity
        # item['count'] = count
        for field in item.fields:
            item[field] = eval(field)
        yield item

猜你喜欢

转载自www.cnblogs.com/654321cc/p/8976944.html

爬取新浪微博

新浪微博爬取

Python爬取新浪微博评论

爬虫爬取新浪微博

新浪微博爬取整理

爬取新浪微博数据+新浪微博模拟登录+mysql+python

用WebCollector爬取新浪微博数据

scrapy爬取新浪微博+cookie池

python爬取新浪微博话题的相关数据

scrapy爬取新浪微博并存入MongoDB中

Python爬取新浪微博热搜榜

爬虫实践---新浪微博爬取+json+csv

爬取新浪微博（搜索含关键词微博及其评论）

[Python3爬虫]爬取新浪微博用户信息及微博内容

爬取微博

python爬取新浪微博大V的所有微博内容

最适合新手练手的爬虫案例——爬取新浪微博用户图片！

NO.5——分析Ajax请求爬取新浪微博的相关数据

NO.16——Pathon爬取杨超越新浪微博数据做词云分析

使用java自动爬取新浪微博历史列表-免登录

python3爬虫 -----新浪微博(m)-------评论爬取

[python爬虫] Selenium爬取新浪微博内容及用户信息

python爬虫——根据指定关键词爬取新浪微博

关于爬取新浪微博，内存耗用过高的问题

基于Requests和Ajax分析法的新浪微博内容及用户信息爬取

Python爬虫爬取新浪微博内容示例【基于代理IP】

详解用python写网络爬虫-爬取新浪微博评论

爬虫练习-爬取新浪微博信息并生成词云图

Python 超简单爬取新浪微博数据 (高级版)

Python 超容易的爬取新浪微博数据 (究极版)

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)