爬虫关于安智市场的过程 - 代码天地

爬虫关于安智市场的过程

其他 2018-07-19 16:09:45 阅读次数: 0

最近，实验室的老师要求写一个爬虫爬取安智市场的一些应用我把经历记录在这里包括每一次的过程

便于自己记忆也帮助其他有需要的人相信以后能写出更好的代码（如果之后有时间code review

【urllib库编写】

简单甚至可以说弱智但是对入门者很好理解

可以爬取静态网页根据domin的变换（手动）爬取更多网页

 1 # -*- coding: utf-8 -*-
 2 """
 3 Created on Wed Jul 11 15:43:00 2018
 4 
 5 @author: LeonardoWang
 6 """
 7 
 8 import re
 9 import urllib
10 import urllib.request
11 
12 url = "http://m.anzhi.com/top_1.html    "
13 page = urllib.request.urlopen(url)
14 html = page.read()
15 html = html.decode('utf-8')
16 
17 #print(html)
18 reg_down = r'href="(.*?)">极速下载</a>'
19 reg_name = r'<h4>(.*?)</h4>'            
20 
21 item_link=[]
22 link = re.compile(reg_down)
23 linklist = re.findall(link, html)
24 
25 item_name=[]
26 name = re.compile(reg_name)
27 namelist = re.findall(name, html)
28 #print(namelist)
29 #print(namelist)
30 
31 #urllib.request.urlretrieve('http://m.anzhi.com/download.php?softid=3001793','今日头条.apk')
32 
33 for n in linklist:
34     item_link.append("http://m.anzhi.com/"+n)
35 #    print(item_link)
36 x=0
37 for a in item_link:
38     print(a)
39     urllib.request.urlretrieve(a,'D:\\apk\\%s.apk' % namelist[x])
40     print("done")
41     x+=1
42 print("Finished")
43 # =============================================================================
44 # for i in range(5):
45 #     print(namelist[i])
46 # =============================================================================
47 #    print (item_name)

【用Selenium写】

猜你喜欢

转载自www.cnblogs.com/leonardo-Xx/p/9336322.html

爬虫关于安智市场的过程

Python 爬虫爬取安智网应用信息

智安网络 |关于《等保合规，保障信息安全》

关于爬虫与反爬虫对抗过程以及策略

中国市场成为高阶智驾战略高地，博世/安波福包揽四项大奖

爬虫智联招聘

安卓市场排行

关于selenium在python爬虫过程中的使用

可配置智联爬虫

python智联招聘爬虫

[Python爬虫]智联招聘

Python爬虫市场简单分析

关于爬虫

安卓Jsoup爬虫

冲刺高端？埃安的智驾「套路」

python爬虫——智联招聘（上）

智联招聘爬虫源码分析(一)

python爬虫（一）---智联招聘实战

爬虫-爬取智联招聘

智联招聘爬虫--遥感招聘分析

python爬虫 - 爬取智联招聘

【智能家居市场】海尔 - 海尔智家

智驾芯片“性价比之王”凭何抢滩增量市场？

安卓应用市场源码

安卓应用发布市场

App上架安卓应用市场

关于爬虫过程出现的错误类型 AttributeError: 'NoneType' object has no attribute 'text'

关于APP上传应用市场

爬虫的简单过程

自学python的爬虫的过程

今日推荐

Linus “吃狗粮”最积极！

开源日报 | Winamp播放器即将开源；生成式AI之战升级第二轮；Linus“吃狗粮”最积极；AI进入泡沫前期；吴泳铭为阿里云带来了什么？

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

周排行

LogN级别的区间查询算法(线段树), 你学会了吗

数论概论(英文版.第4版)

idea 更新后和新的直接安装前，都需要配置 idea64.exe.vmoptions 后再使用

CANOpen系列教程04_CAN总线波特率、位时序、帧类型及格式说明

Java序列化基础

java排序算法整理

异常：org.apache.ibatis.reflection.ReflectionException

（算法练习）——二路归并排序

go 闭包函数

好程序员web前端技术分享媒体查询

每日归档

更多

2024-05-21(8)

2024-05-20(36)

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)