用itemloader提取，清洗数据的技巧 - 代码天地

用itemloader提取，清洗数据的技巧

其他 2019-05-04 20:31:26 阅读次数: 0

    def parse_item(self, response):
        item_loader = NewItemLoader(NewItem(), response)
        item_loader.add_xpath('title', '//div[@id="chan_newsBlk"]/h1/text()')
        item_loader.add_xpath('time', '//div[@id="chan_newsInfo"]/text()', re='(\d+-\d+-\d+\s\d+:\d+:\d+)') 
        item_loader.add_value('url', response.url)
        item_loader.add_xpath('text', '//div[@id="chan_newsDetail"]//text()') item_loader.add_xpath('source', '//div[@id="chan_newsInfo"]/text()', re='来源：(.*)')

在用到itemloader时，既可以通过在item中定义一些函数，作为input_processor()的参数对提取的数据进行修改，也可以直接在提取的字段后面加入自己的正则表达式提取数据。如上图中的re语句。

猜你喜欢

转载自www.cnblogs.com/yc3110/p/10809582.html

用itemloader提取，清洗数据的技巧

如何使用scrapy中的ItemLoader提取数据？

scrapy--Itemloader数据清洗--input_processor和output_processor比较

用hive或mr清洗app数据

【技术分享】机器学习之数据清洗与特征提取

itemloader保存数据（伯乐在线为例）

数据预处理|数据清洗与转换的实战技巧

HiveSQL一天一个小技巧：清洗数据如何将同一组内稀疏字段用有值的数据填充完整？

泛统计理论初探——数据清洗常见技巧

用Python提取Redis数据

数据清洗

清洗数据

数据清洗—excel提取出自己想要的日期数据（针对大量数据）

用流读取本地文件并且清洗数据

Python爬虫之数据的提取和清洗的正则应用规则

学习笔记(23):第一章：数据提取与清洗策略-JsonPath使用案例

学习笔记(22):第一章：数据提取与清洗策略-xpath语法与案例

做数据分析必须了解的获取数据与清洗数据技巧

用python提取log电流数据

RFID数据清洗与数据清洗的区别

[数据清洗]-Pandas 清洗“脏”数据（一）

Python数据清洗 | 常用的数据清洗方法

【数据挖掘】数据清洗

基于AWS Serverless的Glue服务进行ETL(提取、转换和加载)数据分析（二）——数据清洗、转换

用Python进行数据整合与数据清洗！资深数据分析师整理！

MOSS微调数据清洗转换脚本，MOSS微调的便捷小技巧

用pandas进行数据清洗（二）（Data Analysis Pandas Data Munging/Wrangling）用pandas进行数据清洗（一）（Data Analysis Pandas Data Munging/Wrangling）

数据清洗之微博时间清洗

数据清洗之微博内容清洗

R语言数据清洗

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)