爬取二手房信息、数据清洗并存入数据库 - 代码天地

爬取二手房信息、数据清洗并存入数据库

其他 2021-11-28 12:45:56 阅读次数: 0

import pandas as pd
import numpy as np
import pymysql

pymysql.install_as_MySQLdb()
from sqlalchemy import create_engine

df = pd.read_csv(r'ftx_xian3.csv', encoding='utf-8')
print(len(df))
# 1.去重复值
df_clean = df.drop_duplicates(subset='title', keep='first')  # 主键 关键字段，删除
print(len(df_clean))

# 2去空值
df_clean = df_clean.dropna()  # 1.删除，2替换，3插值
# 3
df_clean = df_clean.reset_index()  # 重置索引号
print(df_clean)
for j in range(len(df_clean)):  # 循环访问每一行数据
    if (float(df_clean.iloc[j, 7]) > 2021):
        df_clean.iloc[j, 7] = 2013  # 中位数替代
    if (float(df_clean.iloc[j, 16]) < 0):# 如果有负数
        df_clean.iloc[j, 16] = abs(float(df_clean.iloc[j, 16]))  #取绝对值
print(len(df_clean))

df_clean = df_clean[['title', 'housetype', 'floor', 'orientation',
                     'yearbuilt', 'Street', 'area', 'unitprice']]
df_clean = df_clean[1:100]
print(len(df_clean))

out = pd.DataFrame(df_clean,
                   columns=['title', 'housetype', 'floor', 'orientation',
                            'yearbuilt', 'Street', 'area', 'unitprice'],
                   )
#存一份csv查看
out.to_csv('test3.csv')
#数据库连接
conn = create_engine('mysql+mysqldb://root:000000@localhost:3306/keshihua?charset=utf8')
out.to_sql(name='ershoufang2',con=conn,if_exists='append',index=False,index_label=False)

GitHub下载链接

(更多爬虫练习)[https://github.com/lehoso/CrawlerPractice]

猜你喜欢

转载自blog.csdn.net/m0_52426915/article/details/121311793

爬取二手房信息、数据清洗并存入数据库

爬取汽车之家中二手车的信息并存入数据库

实时爬取二手房数据

如何使用 Pandas 清洗二手房数据并存储文件

安居客二手房信息爬取

xpath爬取58的二手房信息

【爬虫】链接二手房信息爬取

爬取58同城二手房数据存储到redis数据库和mysql数据库

Selenium+Python爬取房天下二手房数据

Python爬虫实战，requests+parsel模块，爬取二手房房源信息数据

链家广州二手房的数据与分析——爬取数据

Python爬取链家二手房数据——重庆地区

爬取链家、贝壳、大唐二手房数据

房天下二手房爬取

python3爬取上海二手房信息（学习、练手）

链家网二手房信息爬取（二）

R言rvest包爬取南京二手房信息

链家网二手房信息爬取（一）

用python爬取二手房交易信息并进行分析

python 学习 - 爬虫入门练习爬取链家网二手房信息

44.scrapy爬取链家网站二手房信息-2

43.scrapy爬取链家网站二手房信息-1

爬虫练习三：爬取链家二手房信息

python爬虫爬取链家二手房信息

python+scrapy爬虫（爬取链家的二手房信息）

90行代码爬取链家广州二手房相关信息

使用bs4爬取链家网的二手房信息

爬虫三：用xpath爬取链家网二手房信息

python 爬虫：链家二手房信息爬取练习

xpath爬取58二手房的房源信息

今日推荐

火速冲上 GitHub 热榜 —— 开源编程语言、框架哪有这么可爱？

北京人形机器人创新中心发布全球首个纯电驱拟人奔跑的全尺寸人形机器人“天工”

LFOSSA 源来如此公开课 | 掌握云原生未来：CNCF 认证全面攻略与备考秘籍

国产云输入法——仅华为无云端数据上传安全问题

开源日报 | 工业开源项目OGG 1.0；姐姐，你要和我一起配置火狐吗；苹果AI遥遥落后？Fedora 40

开放签电子签章：停止新增，优化体验，前进更进（五一假期前工作）

周排行

Metasploit文件目录与入侵基本概念

跨域(CORS)请求问题[No 'Access-Control-Allow-Origin' header is present on the requested resource]常见解决方案

CodeIgniter 源码解读之 CodeIgniter.php（二）

SAS入门之（四）改变数据类型

初识元组

[数学建模]数学建模算法和模型（B站视频）（二）

Nginx 服务器源码安装配置流程

C#实现语音视频录制【基于MCapture + MFile】

开发进度4

下载安装vue的方法网址

每日归档

更多

2024-04-28(0)

2024-04-27(56)

2024-04-26(39)

2024-04-25(22)

2024-04-24(36)

2024-04-23(26)

2024-04-22(39)

2024-04-21(0)

2024-04-20(6)

2024-04-19(5)