爬取财富网数据存入postgresql与mongo - 代码天地

爬取财富网数据存入postgresql与mongo

其他 2019-04-27 16:21:20 阅读次数: 0

需要的工具有：pycharm，datagrip，robo 3t

1.获取财富网的ulr

因为爬取多个页面，需要将页面k变成字符串类型，最终拼接成新的fulurl

2.导入所需要的第三方库

3.为了反爬虫，我们添加header，其中header中含有多个浏览器内核，我只添加了两个，每次循环random随机选择一个

4.在第一步获取了fulurl之后，检查网页源码，我们需要爬取等字段，然后我们创建一个csv文件，并将字段写进去。

接下来我发送请求，用BeautifulSoup解析，然后通过find_all去找到字段所在标签

通过find_all返回后的t是一个list，其中list里包含所有要爬取的内容。

5.接下来对list进行遍历，把每条标签取出来，通过contents去掉标签，取出标签里面内容。

在爬取过程中发现字段“标题”中含有，需要将这条剔除

通过把“标题”单独提取出来，然后判断长度，标准数据长度是1，所以等于1可以继续爬取之后字段。

接下来分别对字段选取，其中对应的变量分别是a2,b2,c4,c8,d3。

其中在获取url时候，我们通过get方法获取标签中的href属性，但是url含有逗号，csv中是以逗号分别下一行，所以需要在url加上双引号。

接下来将爬取的数据写入csv文件中，最后将整段代码封装成函数。

6.爬取数据如下：

爬取了10000条，只截取了其中10条

7.接下来将数据存入postgresql中，也可以直接在爬数据的时候导入，而我是在爬好的csv文件中导入的。需要用到psycopg2

打开文件读取所有行并返回列表，其中第一行是"阅读,评论,标题链接,标题,作者"，所以我们选择第一行以后的数据。

首先通过connect方法链接数据库，创建cursor以访问数据库，然后创建表其中字段"阅读,评论"中包含所以将以integer换成varchar。

另外这里需要说明一下，我们要将数据变成tuple类型导入到postgresql中，而csv读取出来的数据是list类型。最后用split以逗号对其分割，用sql语句插入数据库中。

统计存入多少条数据。

最后提交当前事务，关闭数据库。

上图是数据库中的数据。

8.接下来将数据存入mongodb中

需要用到的模块就是pymongo，思路和postgresql基本上一样，但是mongodb需要以dict类型导入进去。

上图是导入数据库之后的数据。

猜你喜欢

转载自www.cnblogs.com/gawg/p/10779009.html

爬取财富网数据存入postgresql与mongo

爬虫：东方财富网股票数据爬取

python自学-class20-爬取东方财富网股票数据(爬虫)

python-爬取东方财富网期货市场大商所数据

爬取东方财富网股票行情数据和资讯

Windows下利用python+selenium+firefox爬取动态网页数据(爬取东方财富网指数行情数据)

东方财富网数据抓取 | 爬虫

教你用python实现34行代码爬取东方财富网信息，爬虫之路，永无止境！！

用Python爬取东方财富网上市公司财务报表

python爬虫：Selenium 爬取东方财富网上市公司财务报表

比Selenium快100倍的方法爬东方财富网财务报表

爬取豆瓣top250音乐时长出版商存入Mongo数据库

爬取豆瓣电影排名前250部电影并且存入Mongo数据库

scrapy+selenium　爬取淘宝商城商品数据存入到mongo中

爬取数据存入mysql

Python 东方财富网-股市行情数据抓取

Python爬虫学习-豆瓣电影TOP250数据爬取（存入mongo数据库中）

爬取拉勾网数据，并存入Mongodb数据库

网络爬虫之东方财富网股票板块

使用Scrapy框架编写东方财富网eastmoney的爬虫

Python爬虫抓取东方财富网股票数据并实现MySQL数据库存储

Python爬取拉勾网招聘信息存入数据库

python3.7爬虫实战系列爬取掘金网首页存入mysql数据库

python 爬虫爬取最好大学网，并存入 mysql 数据库

爬取学校官网信息公告并存入数据库

python爬取数据存入mysql

scrapy爬取数据存入表格中

scrapy爬取数据存入mongodb中

scrapy爬取数据存入mysql中

将网络·爬取的数据存入excel

今日推荐

《美国对全球网络空间安全与发展的威胁和破坏》报告发布

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

周排行

让自己的头脑极度开放

CentOS 6.5(x64) 和Redhat6.5操作系误删libc

高可用注册中心

【日记】12.28/【题解】AtCoder AGC041

XML（5）_XML 约束_DTD

Java集合Map（四）

树梅派安装桌面环境教程

pipenv 的使用和安装

小程序白屏问题和内存研究

C语言简单选择排序

每日归档

更多

2024-05-02(0)

2024-05-01(4)

2024-04-30(1)

2024-04-29(40)

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)