采集douban - 代码天地

采集douban

其他 2019-11-12 11:34:06 阅读次数: 0

# -*- coding: utf-8 -*-
"""
Created on Thu Oct 31 16:14:02 2019

@author: DELL
"""

import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

urllst = ['https://book.douban.com/tag/%E7%94%B5%E5%BD%B1?start=0&type=T',
'https://book.douban.com/tag/%E7%94%B5%E5%BD%B1?start=20&type=T',
'https://book.douban.com/tag/%E7%94%B5%E5%BD%B1?start=40&type=T',
'https://book.douban.com/tag/%E7%94%B5%E5%BD%B1?start=60&type=T',
'https://book.douban.com/tag/%E7%94%B5%E5%BD%B1?start=80&type=T',
'https://book.douban.com/tag/%E7%94%B5%E5%BD%B1?start=120&type=T'
]
# 添加网址,网站一页20条数据，所以start=0，20，40等

def get_data(ui):
ri = requests.get(url=ui)
soupi = BeautifulSoup(ri.text,'lxml') #解析网页
lis = soupi.find('ul',class_="subject-list").find_all('li')
#解析网页后根据ul与class_标签查找以及所有li标签
lst = []
for li in lis:
dic = {}
dic['书名'] = re.sub(r'\s+','',li.h2.text)
infors = re.sub(r'\s+','',li.find('div',class_="pub").text)
dj = re.search(r'.*/([.\d]*)\D*',infors)
if dj:
dic['定价'] = dj.group(1)
#匹配定价信息，如果匹配成功则添加进字典
nf = re.search(r'.*/([-\d]*)/',infors)
if nf:
dic['年份'] = nf.group(1)

#匹配年份信息，如果匹配成功则添加进字典
lst.append(dic)
return lst
get_data(urllst[0])
datalst = []

for u in urllst:
try:
datalst.extend(get_data(u))
print('采集数据成功，总共采集%i条数据'% len(datalst))
except:
errorlst.append(u)
print('采集数据失败，数据网址为 :',u)
print(datalst)
df = pd.DataFrame(datalst)
df.to_csv('C:/Users/DELL/Desktop/资料/douban.csv')

猜你喜欢

转载自www.cnblogs.com/xixirang/p/11840637.html

采集douban

douban 洪宁强演讲

4. douban爬虫

Scrapy运行报错：ModuleNotFoundError: No module named 'douban.douban'

豆瓣(douban)数据储存实践

python爬取douban读书

爬douban+neihan代码：

douban top250爬取

Python · Use Tsinghua And Douban Image Source To Download Python Packages

sudo pip install -i http://pypi.douban.com/simple/ --trusted-host=pypi.douban.com/simple ipython

如何安装python模块 pip install numpy -i http://pypi.douban.com/simple --trusted-host pypi.douban.com

Douban评论爬取----python re模块和request模块使用

在线生成各种证件图片印章 Logo 按钮图 http //www douban com/group/top

python项目实战：伪装者要开始爬取douban信息了

The repository located at pypi.douban.com is not a trusted or secure host and is being ignored

pip报错：WARNING: The repository located at pypi.douban.com is not a trusted or secure host...

INFO: Ignoring response <403 https://movie.douban.com/top250>: HTTP status code is not handled or not allowed

微信小程序报错提示https://api.douban.com 不在以下 request 合法域名列表中

ubuntu更换pip源出现的问题he repository located at pypi.douban.com is not a trusted or secure host and.....

Scrapy 运行＞＞异常：Ignoring response ＜403 https://movie.douban.com/top250＞: HTTP status code is not hand

https://api.douban.com 不在以下 request 合法域名列表中，请参考文档：https://mp.weixin.qq.com/debug/wxadoc/dev/api/net

爬取豆瓣电影TOP250的所有电影名称，网址为：https://movie.douban.com/top250

采集

采集思路

采集文章

日志采集

数据采集

QueryList采集

声音采集

flume采集

今日推荐

探索 api.maynor1024.live：一站式 AI 服务平台

AI一键去衣技术：窥见深度学习在图像处理领域的革命(最后有彩蛋)

艾体宝案例 | 使用Redis和Spring Ai构建rag应用程序

Apple M1 vs 高通8Gen2 vs Apple A12Z各方面比较

【升职加薪必备架构图】Springboot学习路线汇总_springboot四层架构流程图

与Apollo共创生态：Apollo7周年大会自动驾驶生态利剑出鞘

Spring Boot 3.0：未来企业应用开发的基石

Java 的 AI 前景光明

国内首个智能体生态大会！2024百度万象大会定档5月30日

开源一周年，青语言新版发布

深入浅出：大型语言模型（LLM）的全面解读

顶会ICLR2024论文Time-LLM：基于大语言模型的时间序列预测

周排行

第五讲：AbstractBean以及Ioc常见注解使用和自动装配

python-re模块学习-正则表达式

黑客攻击常用手段

正则表达式的规则

windwos::mutex

Spring中日志的使用（log4j）

Bootstra5 按钮处理

JVM内存结构-这一篇全部了解

Android的低级错误

Oracle中Cursor, A表a1字段值复制到B表b1字段

每日归档

更多

2024-06-02(4)

2024-06-01(60)

2024-05-31(47)

2024-05-30(4)

2024-05-29(65)

2024-05-28(2)

2024-05-27(56)

2024-05-26(6)

2024-05-25(68)

2024-05-24(65)