python爬取数据保存为Json格式 - 代码天地

python爬取数据保存为Json格式

其他 2018-08-31 14:18:58 阅读次数: 0

#encoding:'utf-8'
import urllib.request
from bs4 import BeautifulSoup
import os
import time
import codecs
import json
#找到网址
def getDatas():
   # 伪装
   header={'User-Agent':"Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11"}
   # url="https://movie.douban.com/top250"
   url="file:///E:/scrapy/2018-04-27/movie/movie.html"
   ret=urllib.request.Request(url=url,headers=header)
   # 打开网页
   res=urllib.request.urlopen(ret)
   # 转化格式
   response=BeautifulSoup(res,'html.parser')
   # 找到想要数据的父元素
   datas=response.find_all('div',{'class':'item'})
   # print(datas)
   #创建存放数据的文件夹
   folder_name="output"
   if not os.path.exists(folder_name):
           os.mkdir(folder_name)
   # 定义文件
   current_time=time.strftime('%Y-%m-%d',time.localtime())
   file_name="move"+current_time+".json"
   # 文件路径
   file_path=folder_name+"/"+file_name

   for item in datas:
       # print(item)
       dict1={}
       dict1['rank']=item.find('div',{'class':'pic'}).find('em').get_text()
       dict1['title']=item.find('div',{'class':'info'}).find('div',{'class':'hd'}).find('a').find('span',{'class':'title'}).get_text()
       dict1['picUrl']=item.find('div',{'class':'pic'}).find('a').find('img').get('src')
       # print(picUrl)
       # 保存数据为json格式

       try:
           with codecs.open(file_path,'a',encoding="utf-8") as fp:
               fp.write(json.dumps(dict1,ensure_ascii=False)+",\n")
       except IOError as err:
           print('error'+str(err))
       finally:
           fp.close()
   pass

getDatas()
# 爬取数据

猜你喜欢

转载自blog.csdn.net/zhanghl150426/article/details/82022339

python爬取数据保存为Json格式

python爬取数据保存为MySQl格式

python爬取数据保存为txt格式

python用akshare批量爬取金融数据并保存为excel格式

python爬取数据保存为图片

Python爬虫之bilibili视频弹幕爬取并保存为JSON格式（详解分析+代码实现）

python中Scrapy实战之爬取网页并保存为json文件

python爬取中国天气网天气并保存为word格式文件

python爬取中国天气网天气并保存为csv格式文件

Python 爬取数电教案并保存为pdf

python爬取多个网页表格并保存为csv

python爬取昵称并保存为vss

【Python爬虫】使用美味汤BeautifulSoup爬取数据并保存为Excel文件

python读取Json文件保存为csv格式

Python字典保存为Json格式化文件

SSM+Redis缓存(保存为JSON格式数据)

python 将数据保存为excel的xls格式

Scrapy爬虫框架学习（三）分页爬取并保存为json文件

利用requests和BeautifulSoup爬取菜鸟教程的代码与图片并保存为markdown格式

Python爬取全国最新房价信息保存为CSV文件,进行简单的数据分析

Python 保存为json，并按json文件格式换行，中文不乱码

python--爬取豆瓣热门国产电视剧保存为文件

python爬取安居客地图页信息，并保存为csv文件

Android爬虫Jsoup爬取某招聘网站数据并保存为exceL文件

Vue组件-爬取页面表格中的数据并保存为csv文件

爬取表格类网站数据并保存为excel文件

python 利用scrapy爬取豆瓣TOP250部电影信息分别保存为csv、json、存入mysql、下载海报图片

Matlab将mat格式数据保存为txt格式

python入门访问网站并将爬回来的数据保存为csv文件

Python爬虫学习笔记(2) _豆瓣电影TOP250(2)爬取详细数据，保存为CSV文件【urllib、request、bs4、error、CSV】

今日推荐

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

开源日报 | 中学生开源前端动画引擎；全球首个Llama3 8B中文版开源模型；联想电脑恐出局；Linus讽刺AI炒作

“百模大战”必有一战 | 2024中国“百模大战”竞争格局分析

最强开源大模型 Llama 3 上架 Gitee AI

虽然老乡鸡开源的不是代码，但背后的原因却让人很暖心

周排行

决策树的部分理解

STM32软件IIC的实现

RocketMQ原理解析-HA

vue-动态路由（路由的传参和接参）

利用python对Excel中的特定数据提取并写入新表

【Ubuntu】 Ubuntu16.04搭建NFS服务

Elasticsearch基础操作与对应的curl命令行，python对接实现

JVM数据存储结构 & Java的值传递和址传递

yum命令使用指南

java基础（一）：java语法基础

每日归档

更多

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)

2024-04-18(0)

2024-04-17(5)

2024-04-16(70)

2024-04-15(42)