爬虫爱用的一些python技巧

1.正则表达式

有时候提取到的数据不规整,需要用正则来匹配所需要展现出来的数据

学习链接:https://www.cnblogs.com/-chenxs/p/11352172.htmlhttps://www.cnblogs.com/-chenxs/p/11352409.html

2.对数据的切分处理

有时候提取出来的数据字符串两边的内容或一边的内容不需要,或者去除字符串两边的空格、一些转移字符;

我们可以使用字符串切分或者strip()方法来对字符串两边的内容进行切割操作

3.format()方法

对字符串格式化的一种方式

比如我们爬虫对url处理,生成url列表的时候,要使url中一个参数的值按照某种规律变化时就会使用到format

url="http://www.xxx.com/a/b={}"
url.format(1) #那么b=1
url.format(i) for i in range(1,10) #打印出b=1-9的九条url

4.列表推导式

帮助我们快速的生成包含一堆数据的列表

>>>[i+10 for i in range(10)]
[10,11,12,...19]

>>>["10月{}日".format(i) for i in range(1,10)]
["10月1日","10月2日",..."10月9日"]

5.字典推导式

帮助我们快速的生成包含一堆数据的字典

>>>{i+10:i for i in range(10)}
{10:0,11:1,12:2,...19:9}
>>>{"a{}".format(i):10 for i in range(3)}
{"a0":10,"a1":10,"a2":10}

6.三元运算符

赋值操作 if 条件 else 另外的值

----  if  后面的条件成立,就把if前面的结果赋值给a,否则把else后面的结果赋值给a

a=10 if 2>1 else 20 # a=10

a=10 if 2<1 else 20 # a=20

猜你喜欢

转载自www.cnblogs.com/-chenxs/p/11415860.html