EDA_house

import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
from scipy.stats import norm
from sklearn.preprocessing import StandardScaler
from scipy import stats
import warnings
warnings.filterwarnings('ignore')
%matplotlib inline
df_train = pd.read_csv('train_data.csv')
df_train.columns
Index(['ID', 'area', 'rentType', 'houseType', 'houseFloor', 'totalFloor',
       'houseToward', 'houseDecoration', 'communityName', 'city', 'region',
       'plate', 'buildYear', 'saleSecHouseNum', 'subwayStationNum',
       'busStationNum', 'interSchoolNum', 'schoolNum', 'privateSchoolNum',
       'hospitalNum', 'drugStoreNum', 'gymNum', 'bankNum', 'shopNum',
       'parkNum', 'mallNum', 'superMarketNum', 'totalTradeMoney',
       'totalTradeArea', 'tradeMeanPrice', 'tradeSecNum', 'totalNewTradeMoney',
       'totalNewTradeArea', 'tradeNewMeanPrice', 'tradeNewNum', 'remainNewNum',
       'supplyNewNum', 'supplyLandNum', 'supplyLandArea', 'tradeLandNum',
       'tradeLandArea', 'landTotalPrice', 'landMeanPrice', 'totalWorkers',
       'newWorkers', 'residentPopulation', 'pv', 'uv', 'lookNum', 'tradeTime',
       'tradeMoney'],
      dtype='object')
df_train['tradeMoney'].describe()
count    4.144000e+04
mean     8.837074e+03
std      5.514287e+05
min      0.000000e+00
25%      2.800000e+03
50%      4.000000e+03
75%      5.500000e+03
max      1.000000e+08
Name: tradeMoney, dtype: float64
df_train.shape
(41440, 51)

存在不正常的极值,经筛选分析, 房屋租金大于20000的信息只占有1.2%,为了不影响房屋租金的数据分布,将房屋租金大于20000的信息删除。

df_train.drop(df_train[df_train.tradeMoney > 20000].index, inplace=True)   
# 删除房租大于20000的数据行
df_train.reset_index(drop=True)   # 重置索引
# print(df_train)

ID area rentType houseType houseFloor totalFloor houseToward houseDecoration communityName city ... landTotalPrice landMeanPrice totalWorkers newWorkers residentPopulation pv uv lookNum tradeTime tradeMoney
0 100309852 68.06 未知方式 2室1厅1卫 16 暂无数据 其他 XQ00051 SH ... 0 0.000000 28248 614 111546 1124.0 284.0 0 2018/11/28 2000.0
1 100307942 125.55 未知方式 3室2厅2卫 14 暂无数据 简装 XQ00130 SH ... 0 0.000000 14823 148 157552 701.0 22.0 1 2018/12/16 2000.0
2 100307764 132.00 未知方式 3室2厅2卫 32 暂无数据 其他 XQ00179 SH ... 0 0.000000 77645 520 131744 57.0 20.0 1 2018/12/22 16000.0
3 100306518 57.00 未知方式 1室1厅1卫 17 暂无数据 精装 XQ00313 SH ... 332760000 3080.033100 8750 1665 253337 888.0 279.0 9 2018/12/21 1600.0
4 100305262 129.00 未知方式 3室2厅3卫 2 暂无数据 毛坯 XQ01257 SH ... 0 0.000000 800 117 125309 2038.0 480.0 0 2018/11/18 2900.0
5 100304268 223.35 未知方式 4室3厅3卫 2 暂无数据 其他 XQ00457 SH ... 0 0.000000 48204 44561 719428 4832.0 1304.0 0 2018/11/14 14000.0
6 100304055 78.94 未知方式 2室2厅1卫 18 暂无数据 其他 XQ00246 SH ... 0 0.000000 8750 1467 253337 1586.0 469.0 0 2018/11/18 1000.0
7 100295123 76.00 未知方式 2室1厅1卫 5 暂无数据 其他 XQ02331 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/24 1800.0
8 100293141 120.55 未知方式 3室2厅1卫 6 暂无数据 其他 XQ02346 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/19 1450.0
9 100293063 83.00 未知方式 3室1厅1卫 5 暂无数据 其他 XQ02310 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/26 1700.0
10 100293051 89.00 未知方式 2室1厅1卫 6 暂无数据 其他 XQ02332 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/29 1500.0
11 100291116 80.64 未知方式 2室2厅1卫 6 暂无数据 其他 XQ02307 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/30 2000.0
12 100291113 100.20 未知方式 3室2厅1卫 6 暂无数据 其他 XQ02375 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/1 2200.0
13 100291100 78.38 未知方式 2室1厅1卫 5 暂无数据 简装 XQ02390 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/10 1600.0
14 100291018 136.00 未知方式 3室2厅2卫 6 暂无数据 其他 XQ02361 SH ... 0 0.000000 28546 0 371900 72018.0 5286.0 0 2018/5/15 2500.0
15 100290330 97.00 未知方式 2室1厅1卫 7 暂无数据 其他 XQ02523 SH ... 0 0.000000 74225 0 318387 16174.0 1108.0 0 2018/2/10 6000.0
16 100289126 82.00 未知方式 2室1厅1卫 6 暂无数据 其他 XQ02306 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/24 1600.0
17 100289120 108.00 未知方式 3室2厅2卫 18 暂无数据 其他 XQ02322 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/25 2800.0
18 100289100 80.00 未知方式 3室1厅1卫 5 暂无数据 其他 XQ02329 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/10 1800.0
19 100288954 58.00 未知方式 2室1厅1卫 21 暂无数据 其他 XQ02441 SH ... 0 0.000000 28546 0 371900 74509.0 6647.0 0 2018/6/1 1600.0
20 100288194 41.54 未知方式 1室1厅1卫 5 暂无数据 其他 XQ02578 SH ... 0 0.000000 74225 0 318387 7536.0 878.0 0 2018/4/16 3400.0
21 100287134 128.00 未知方式 3室2厅2卫 6 暂无数据 其他 XQ02449 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/18 1500.0
22 100287130 162.03 未知方式 3室2厅2卫 18 暂无数据 其他 XQ02388 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/28 3600.0
23 100284167 235.86 未知方式 5室2厅3卫 1 暂无数据 毛坯 XQ03074 SH ... 0 0.000000 5622 0 210903 25151.0 2137.0 0 2018/2/28 8000.0
24 100283730 222.10 未知方式 4室3厅3卫 3 暂无数据 其他 XQ01295 SH ... 1004970000 3059.527394 46725 12790 928198 8668.0 1374.0 2 2018/11/6 6000.0
25 100280164 75.00 未知方式 2室1厅1卫 18 暂无数据 其他 XQ01337 SH ... 400600000 3549.892741 46725 0 928198 52511.0 4868.0 0 2018/3/24 3000.0
26 100274999 40.00 未知方式 1室1厅1卫 21 暂无数据 其他 XQ02441 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/16 1300.0
27 100274997 90.00 未知方式 2室1厅1卫 6 暂无数据 简装 XQ02439 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/15 2100.0
28 100274959 95.00 未知方式 3室2厅1卫 6 暂无数据 其他 XQ02307 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/8 2200.0
29 100274854 87.76 未知方式 3室1厅1卫 6 暂无数据 其他 XQ02334 SH ... 0 0.000000 28546 0 371900 72018.0 5286.0 0 2018/5/20 1380.0
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
40919 100004186 10.00 合租 5室1厅1卫 11 精装 XQ00853 SH ... 0 0.000000 4370 0 306857 17471.0 2554.0 0 2018/3/14 2970.0
40920 100003828 8.50 合租 3室1厅1卫 14 精装 XQ02300 SH ... 0 0.000000 17401 0 319860 34195.0 2857.0 0 2018/1/22 1890.0
40921 100003416 9.80 合租 4室1厅1卫 6 精装 XQ00452 SH ... 0 0.000000 48204 0 719428 42301.0 4009.0 0 2018/3/10 1890.0
40922 100003410 8.10 合租 3室1厅1卫 6 精装 XQ00382 SH ... 0 0.000000 48204 0 719428 42301.0 4009.0 0 2018/3/21 1860.0
40923 100003122 88.40 整租 1室2厅1卫 56 其他 XQ01133 SH ... 0 0.000000 855400 0 161754 22185.0 1971.0 0 2018/2/26 14000.0
40924 100003121 9.40 合租 2室1厅1卫 6 精装 XQ01093 SH ... 0 0.000000 855400 0 161754 17608.0 2028.0 0 2018/3/3 3630.0
40925 100002878 12.80 合租 3室1厅1卫 11 精装 XQ00949 SH ... 0 0.000000 388879 0 491767 49986.0 4085.0 0 2018/1/21 1990.0
40926 100002864 10.00 合租 3室1厅1卫 18 精装 XQ00992 SH ... 0 0.000000 388879 0 491767 29847.0 3500.0 0 2018/3/8 1990.0
40927 100002856 9.00 合租 5室1厅1卫 6 精装 XQ00970 SH ... 0 0.000000 388879 0 491767 29847.0 3500.0 0 2018/3/24 1890.0
40928 100002718 94.21 未知方式 2室1厅1卫 29 其他 XQ01177 SH ... 0 0.000000 4370 0 306857 21484.0 2570.0 0 2018/4/9 5800.0
40929 100002576 10.20 合租 4室1厅1卫 6 精装 XQ00653 SH ... 0 0.000000 8498 0 428071 29516.0 1950.0 0 2018/1/28 1660.0
40930 100002440 8.80 合租 4室2厅1卫 18 精装 XQ01204 SH ... 0 0.000000 20904 0 245872 19313.0 1914.0 0 2018/1/7 1560.0
40931 100002435 10.20 合租 3室1厅1卫 18 精装 XQ01199 SH ... 1078790000 4536.002541 20904 0 245872 26189.0 2957.0 0 2018/3/3 1460.0
40932 100002194 9.30 合租 4室1厅1卫 18 精装 XQ00852 SH ... 0 0.000000 4370 0 306857 17471.0 2554.0 0 2018/3/1 2690.0
40933 100002190 10.00 合租 4室1厅1卫 11 精装 XQ00852 SH ... 0 0.000000 4370 0 306857 17471.0 2554.0 0 2018/3/8 3990.0
40934 100001433 10.80 合租 4室1厅1卫 14 精装 XQ00483 SH ... 0 0.000000 48204 0 719428 73953.0 5440.0 0 2018/1/14 2290.0
40935 100001117 11.40 合租 2室1厅1卫 5 精装 XQ01128 SH ... 0 0.000000 855400 0 161754 17608.0 2028.0 0 2018/3/23 2760.0
40936 100001114 88.99 未知方式 2室2厅1卫 27 其他 XQ01118 SH ... 0 0.000000 855400 0 161754 10930.0 1766.0 0 2018/4/11 15000.0
40937 100001107 88.99 未知方式 2室2厅1卫 27 其他 XQ01118 SH ... 0 0.000000 855400 0 161754 40334.0 5970.0 0 2018/6/3 13500.0
40938 100000726 11.80 合租 3室1厅1卫 6 精装 XQ01146 SH ... 0 0.000000 4370 0 306857 28213.0 2446.0 0 2018/1/24 2990.0
40939 100000573 13.20 合租 4室1厅1卫 7 精装 XQ00617 SH ... 0 0.000000 8498 0 428071 32835.0 2222.0 0 2018/2/23 1430.0
40940 100000563 21.10 合租 5室1厅1卫 4 精装 XQ00607 SH ... 0 0.000000 8498 0 428071 26130.0 2703.0 0 2018/3/10 1690.0
40941 100000557 9.10 合租 3室1厅1卫 6 精装 XQ00695 SH ... 0 0.000000 8498 0 428071 26130.0 2703.0 0 2018/3/21 1690.0
40942 100000535 13.00 合租 4室1厅1卫 6 精装 XQ00707 SH ... 0 0.000000 8498 0 428071 64170.0 6665.0 0 2018/6/2 1460.0
40943 100000531 13.10 合租 5室1厅1卫 7 精装 XQ00617 SH ... 0 0.000000 8498 0 428071 64170.0 6665.0 0 2018/6/17 2290.0
40944 100000438 10.00 合租 4室1厅1卫 11 精装 XQ01209 SH ... 573070000 4313.010000 20904 0 245872 29635.0 2662.0 0 2018/2/5 2190.0
40945 100000201 7.10 合租 3室1厅1卫 6 精装 XQ00853 SH ... 0 0.000000 4370 0 306857 28213.0 2446.0 0 2018/1/22 2090.0
40946 100000198 9.20 合租 4室1厅1卫 18 精装 XQ00852 SH ... 0 0.000000 4370 0 306857 19231.0 2016.0 0 2018/2/8 3190.0
40947 100000182 14.10 合租 4室1厅1卫 8 精装 XQ00791 SH ... 0 0.000000 4370 0 306857 17471.0 2554.0 0 2018/3/22 2460.0
40948 100000041 33.50 未知方式 1室1厅1卫 19 其他 XQ03246 SH ... 0 0.000000 13192 990 406803 2556.0 717.0 1 2018/10/21 3000.0

40949 rows × 51 columns

df.drop(df[df.score < 50].index, inplace=True)

多条件情况:
可以使用操作符: | 只需其中一个成立, & 同时成立, ~ 表示取反,它们要用括号括起来。
例如删除列“score<50 和>20的所有行

df = df.drop(df[(df.score < 50) & (df.score > 20)].index)

删除行后需要重置索引

df_train['tradeMoney'].describe()
count    40949.000000
mean      4540.298054
std       2864.291053
min          0.000000
25%       2800.000000
50%       3900.000000
75%       5300.000000
max      20000.000000
Name: tradeMoney, dtype: float64

缺失值分析

# pd.isna(df_train)

for col_name in df_train.columns:
    nan = list(df_train[col_name].isna()).count(True)
    print(col_name, nan, nan/40949)
ID 0 0.0
area 0 0.0
rentType 5 0.00012210310386090014
houseType 0 0.0
houseFloor 0 0.0
totalFloor 0 0.0
houseToward 0 0.0
houseDecoration 0 0.0
communityName 0 0.0
city 0 0.0
region 0 0.0
plate 0 0.0
buildYear 0 0.0
saleSecHouseNum 0 0.0
subwayStationNum 0 0.0
busStationNum 0 0.0
interSchoolNum 0 0.0
schoolNum 0 0.0
privateSchoolNum 0 0.0
hospitalNum 0 0.0
drugStoreNum 0 0.0
gymNum 0 0.0
bankNum 0 0.0
shopNum 0 0.0
parkNum 0 0.0
mallNum 0 0.0
superMarketNum 0 0.0
totalTradeMoney 0 0.0
totalTradeArea 0 0.0
tradeMeanPrice 0 0.0
tradeSecNum 0 0.0
totalNewTradeMoney 0 0.0
totalNewTradeArea 0 0.0
tradeNewMeanPrice 0 0.0
tradeNewNum 0 0.0
remainNewNum 0 0.0
supplyNewNum 0 0.0
supplyLandNum 0 0.0
supplyLandArea 0 0.0
tradeLandNum 0 0.0
tradeLandArea 0 0.0
landTotalPrice 0 0.0
landMeanPrice 0 0.0
totalWorkers 0 0.0
newWorkers 0 0.0
residentPopulation 0 0.0
pv 17 0.00041515055312706047
uv 17 0.00041515055312706047
lookNum 0 0.0
tradeTime 0 0.0
tradeMoney 0 0.0

虽然在上述缺失值分析中只有三列有少量的缺失值,并做删除处理,但是观察数据发现,仍旧有很多其他的形式存在缺失值。

df_train.fillna(0, inplace=True)     # 缺失值置零
df_train = df_train[~df_train['rentType'].isin([0])]
df_train = df_train[~df_train['tradeMoney'].isin([0])]
df_train = df_train[~df_train['pv'].isin([0])]
df_train = df_train[~df_train['uv'].isin([0])]

df_train.reset_index(drop=True)   # 重置索引
# print(df_train)

ID area rentType houseType houseFloor totalFloor houseToward houseDecoration communityName city ... landTotalPrice landMeanPrice totalWorkers newWorkers residentPopulation pv uv lookNum tradeTime tradeMoney
0 100309852 68.06 未知方式 2室1厅1卫 16 暂无数据 其他 XQ00051 SH ... 0 0.000000 28248 614 111546 1124.0 284.0 0 2018/11/28 2000.0
1 100307942 125.55 未知方式 3室2厅2卫 14 暂无数据 简装 XQ00130 SH ... 0 0.000000 14823 148 157552 701.0 22.0 1 2018/12/16 2000.0
2 100307764 132.00 未知方式 3室2厅2卫 32 暂无数据 其他 XQ00179 SH ... 0 0.000000 77645 520 131744 57.0 20.0 1 2018/12/22 16000.0
3 100306518 57.00 未知方式 1室1厅1卫 17 暂无数据 精装 XQ00313 SH ... 332760000 3080.033100 8750 1665 253337 888.0 279.0 9 2018/12/21 1600.0
4 100305262 129.00 未知方式 3室2厅3卫 2 暂无数据 毛坯 XQ01257 SH ... 0 0.000000 800 117 125309 2038.0 480.0 0 2018/11/18 2900.0
5 100304268 223.35 未知方式 4室3厅3卫 2 暂无数据 其他 XQ00457 SH ... 0 0.000000 48204 44561 719428 4832.0 1304.0 0 2018/11/14 14000.0
6 100304055 78.94 未知方式 2室2厅1卫 18 暂无数据 其他 XQ00246 SH ... 0 0.000000 8750 1467 253337 1586.0 469.0 0 2018/11/18 1000.0
7 100295123 76.00 未知方式 2室1厅1卫 5 暂无数据 其他 XQ02331 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/24 1800.0
8 100293141 120.55 未知方式 3室2厅1卫 6 暂无数据 其他 XQ02346 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/19 1450.0
9 100293063 83.00 未知方式 3室1厅1卫 5 暂无数据 其他 XQ02310 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/26 1700.0
10 100293051 89.00 未知方式 2室1厅1卫 6 暂无数据 其他 XQ02332 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/29 1500.0
11 100291116 80.64 未知方式 2室2厅1卫 6 暂无数据 其他 XQ02307 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/30 2000.0
12 100291113 100.20 未知方式 3室2厅1卫 6 暂无数据 其他 XQ02375 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/1 2200.0
13 100291100 78.38 未知方式 2室1厅1卫 5 暂无数据 简装 XQ02390 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/10 1600.0
14 100291018 136.00 未知方式 3室2厅2卫 6 暂无数据 其他 XQ02361 SH ... 0 0.000000 28546 0 371900 72018.0 5286.0 0 2018/5/15 2500.0
15 100290330 97.00 未知方式 2室1厅1卫 7 暂无数据 其他 XQ02523 SH ... 0 0.000000 74225 0 318387 16174.0 1108.0 0 2018/2/10 6000.0
16 100289126 82.00 未知方式 2室1厅1卫 6 暂无数据 其他 XQ02306 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/24 1600.0
17 100289120 108.00 未知方式 3室2厅2卫 18 暂无数据 其他 XQ02322 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/25 2800.0
18 100289100 80.00 未知方式 3室1厅1卫 5 暂无数据 其他 XQ02329 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/10 1800.0
19 100288954 58.00 未知方式 2室1厅1卫 21 暂无数据 其他 XQ02441 SH ... 0 0.000000 28546 0 371900 74509.0 6647.0 0 2018/6/1 1600.0
20 100288194 41.54 未知方式 1室1厅1卫 5 暂无数据 其他 XQ02578 SH ... 0 0.000000 74225 0 318387 7536.0 878.0 0 2018/4/16 3400.0
21 100287134 128.00 未知方式 3室2厅2卫 6 暂无数据 其他 XQ02449 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/18 1500.0
22 100287130 162.03 未知方式 3室2厅2卫 18 暂无数据 其他 XQ02388 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/28 3600.0
23 100284167 235.86 未知方式 5室2厅3卫 1 暂无数据 毛坯 XQ03074 SH ... 0 0.000000 5622 0 210903 25151.0 2137.0 0 2018/2/28 8000.0
24 100283730 222.10 未知方式 4室3厅3卫 3 暂无数据 其他 XQ01295 SH ... 1004970000 3059.527394 46725 12790 928198 8668.0 1374.0 2 2018/11/6 6000.0
25 100280164 75.00 未知方式 2室1厅1卫 18 暂无数据 其他 XQ01337 SH ... 400600000 3549.892741 46725 0 928198 52511.0 4868.0 0 2018/3/24 3000.0
26 100274999 40.00 未知方式 1室1厅1卫 21 暂无数据 其他 XQ02441 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/16 1300.0
27 100274997 90.00 未知方式 2室1厅1卫 6 暂无数据 简装 XQ02439 SH ... 0 0.000000 28546 0 371900 40787.0 2942.0 0 2018/3/15 2100.0
28 100274959 95.00 未知方式 3室2厅1卫 6 暂无数据 其他 XQ02307 SH ... 0 0.000000 28546 0 371900 34441.0 3035.0 0 2018/4/8 2200.0
29 100274854 87.76 未知方式 3室1厅1卫 6 暂无数据 其他 XQ02334 SH ... 0 0.000000 28546 0 371900 72018.0 5286.0 0 2018/5/20 1380.0
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
40893 100004186 10.00 合租 5室1厅1卫 11 精装 XQ00853 SH ... 0 0.000000 4370 0 306857 17471.0 2554.0 0 2018/3/14 2970.0
40894 100003828 8.50 合租 3室1厅1卫 14 精装 XQ02300 SH ... 0 0.000000 17401 0 319860 34195.0 2857.0 0 2018/1/22 1890.0
40895 100003416 9.80 合租 4室1厅1卫 6 精装 XQ00452 SH ... 0 0.000000 48204 0 719428 42301.0 4009.0 0 2018/3/10 1890.0
40896 100003410 8.10 合租 3室1厅1卫 6 精装 XQ00382 SH ... 0 0.000000 48204 0 719428 42301.0 4009.0 0 2018/3/21 1860.0
40897 100003122 88.40 整租 1室2厅1卫 56 其他 XQ01133 SH ... 0 0.000000 855400 0 161754 22185.0 1971.0 0 2018/2/26 14000.0
40898 100003121 9.40 合租 2室1厅1卫 6 精装 XQ01093 SH ... 0 0.000000 855400 0 161754 17608.0 2028.0 0 2018/3/3 3630.0
40899 100002878 12.80 合租 3室1厅1卫 11 精装 XQ00949 SH ... 0 0.000000 388879 0 491767 49986.0 4085.0 0 2018/1/21 1990.0
40900 100002864 10.00 合租 3室1厅1卫 18 精装 XQ00992 SH ... 0 0.000000 388879 0 491767 29847.0 3500.0 0 2018/3/8 1990.0
40901 100002856 9.00 合租 5室1厅1卫 6 精装 XQ00970 SH ... 0 0.000000 388879 0 491767 29847.0 3500.0 0 2018/3/24 1890.0
40902 100002718 94.21 未知方式 2室1厅1卫 29 其他 XQ01177 SH ... 0 0.000000 4370 0 306857 21484.0 2570.0 0 2018/4/9 5800.0
40903 100002576 10.20 合租 4室1厅1卫 6 精装 XQ00653 SH ... 0 0.000000 8498 0 428071 29516.0 1950.0 0 2018/1/28 1660.0
40904 100002440 8.80 合租 4室2厅1卫 18 精装 XQ01204 SH ... 0 0.000000 20904 0 245872 19313.0 1914.0 0 2018/1/7 1560.0
40905 100002435 10.20 合租 3室1厅1卫 18 精装 XQ01199 SH ... 1078790000 4536.002541 20904 0 245872 26189.0 2957.0 0 2018/3/3 1460.0
40906 100002194 9.30 合租 4室1厅1卫 18 精装 XQ00852 SH ... 0 0.000000 4370 0 306857 17471.0 2554.0 0 2018/3/1 2690.0
40907 100002190 10.00 合租 4室1厅1卫 11 精装 XQ00852 SH ... 0 0.000000 4370 0 306857 17471.0 2554.0 0 2018/3/8 3990.0
40908 100001433 10.80 合租 4室1厅1卫 14 精装 XQ00483 SH ... 0 0.000000 48204 0 719428 73953.0 5440.0 0 2018/1/14 2290.0
40909 100001117 11.40 合租 2室1厅1卫 5 精装 XQ01128 SH ... 0 0.000000 855400 0 161754 17608.0 2028.0 0 2018/3/23 2760.0
40910 100001114 88.99 未知方式 2室2厅1卫 27 其他 XQ01118 SH ... 0 0.000000 855400 0 161754 10930.0 1766.0 0 2018/4/11 15000.0
40911 100001107 88.99 未知方式 2室2厅1卫 27 其他 XQ01118 SH ... 0 0.000000 855400 0 161754 40334.0 5970.0 0 2018/6/3 13500.0
40912 100000726 11.80 合租 3室1厅1卫 6 精装 XQ01146 SH ... 0 0.000000 4370 0 306857 28213.0 2446.0 0 2018/1/24 2990.0
40913 100000573 13.20 合租 4室1厅1卫 7 精装 XQ00617 SH ... 0 0.000000 8498 0 428071 32835.0 2222.0 0 2018/2/23 1430.0
40914 100000563 21.10 合租 5室1厅1卫 4 精装 XQ00607 SH ... 0 0.000000 8498 0 428071 26130.0 2703.0 0 2018/3/10 1690.0
40915 100000557 9.10 合租 3室1厅1卫 6 精装 XQ00695 SH ... 0 0.000000 8498 0 428071 26130.0 2703.0 0 2018/3/21 1690.0
40916 100000535 13.00 合租 4室1厅1卫 6 精装 XQ00707 SH ... 0 0.000000 8498 0 428071 64170.0 6665.0 0 2018/6/2 1460.0
40917 100000531 13.10 合租 5室1厅1卫 7 精装 XQ00617 SH ... 0 0.000000 8498 0 428071 64170.0 6665.0 0 2018/6/17 2290.0
40918 100000438 10.00 合租 4室1厅1卫 11 精装 XQ01209 SH ... 573070000 4313.010000 20904 0 245872 29635.0 2662.0 0 2018/2/5 2190.0
40919 100000201 7.10 合租 3室1厅1卫 6 精装 XQ00853 SH ... 0 0.000000 4370 0 306857 28213.0 2446.0 0 2018/1/22 2090.0
40920 100000198 9.20 合租 4室1厅1卫 18 精装 XQ00852 SH ... 0 0.000000 4370 0 306857 19231.0 2016.0 0 2018/2/8 3190.0
40921 100000182 14.10 合租 4室1厅1卫 8 精装 XQ00791 SH ... 0 0.000000 4370 0 306857 17471.0 2554.0 0 2018/3/22 2460.0
40922 100000041 33.50 未知方式 1室1厅1卫 19 其他 XQ03246 SH ... 0 0.000000 13192 990 406803 2556.0 717.0 1 2018/10/21 3000.0

40923 rows × 51 columns


频次大于100的特征值

# print(df_len)
for col_name in df_train.columns:
    nan = df_train[col_name].value_counts()
    print(nan)

100077566    1
100044091    1
100275528    1
100166983    1
100024161    1
100069441    1
100209423    1
100029760    1
100117823    1
100107578    1
100152652    1
100048185    1
100134199    1
100066614    1
100172932    1
100060467    1
100189490    1
100017806    1
100015433    1
100259152    1
100219404    1
100076907    1
100072821    1
100070772    1
100036201    1
100058482    1
100130161    1
100285805    1
100152684    1
100078952    1
            ..
100190892    1
100268714    1
100064762    1
100262569    1
100039423    1
100305572    1
100313760    1
100094623    1
100287133    1
100133977    1
100229817    1
100301498    1
100092604    1
100096702    1
100276950    1
100054465    1
100086483    1
100154066    1
100016849    1
100084432    1
100254413    1
100020015    1
100266699    1
100092126    1
100305549    1
100303557    1
100305604    1
100311745    1
100160191    1
100029021    1
Name: ID, Length: 40923, dtype: int64
90.00     303
89.00     266
10.00     203
60.00     201
50.00     193
40.00     188
88.00     181
12.00     172
80.00     169
70.00     167
13.00     156
55.00     155
85.00     144
56.00     138
15.00     137
14.00     135
52.00     113
30.00     111
57.00     110
78.00     110
42.00     108
58.00     108
54.00     108
35.00     108
37.00     105
65.00     105
53.00     103
45.00     103
51.00     101
11.00      99
         ... 
46.62       1
93.26       1
27.83       1
152.56      1
128.87      1
44.22       1
45.15       1
115.76      1
115.74      1
35.86       1
121.58      1
241.41      1
110.62      1
39.22       1
122.16      1
155.08      1
92.54       1
116.81      1
150.69      1
93.18       1
72.95       1
36.84       1
103.24      1
95.59       1
86.34       1
45.33       1
68.53       1
153.09      1
12.08       1
37.72       1
Name: area, Length: 10046, dtype: int64
未知方式    30364
整租       5355
合租       5204
Name: rentType, dtype: int64
1室1厅1卫    9789
2室1厅1卫    8503
2室2厅1卫    6766
3室1厅1卫    3991
3室2厅2卫    2633
4室1厅1卫    1957
3室2厅1卫    1915
1室0厅1卫    1281
1室2厅1卫     932
2室2厅2卫     855
2室0厅1卫     418
4室2厅2卫     385
4室2厅3卫     213
5室1厅1卫     197
2室1厅2卫     154
3室1厅2卫     133
3室2厅3卫     104
1室0厅0卫      82
6室1厅1卫      65
1室1厅2卫      39
4室2厅1卫      39
5室2厅3卫      37
4室2厅4卫      32
5室2厅2卫      30
4室3厅3卫      30
5室3厅3卫      26
4室1厅2卫      19
5室2厅4卫      18
3室0厅1卫      18
4室3厅2卫      17
          ... 
6室3厅2卫       2
2室3厅1卫       2
6室3厅3卫       2
7室2厅4卫       2
5室3厅1卫       2
6室2厅7卫       2
7室2厅1卫       2
8室3厅4卫       1
3室1厅0卫       1
4室0厅2卫       1
5室1厅5卫       1
5室4厅3卫       1
6室1厅4卫       1
7室2厅3卫       1
4室4厅2卫       1
7室1厅7卫       1
7室1厅3卫       1
5室1厅3卫       1
5室3厅6卫       1
5室4厅2卫       1
6室4厅5卫       1
6室2厅5卫       1
8室2厅3卫       1
0室0厅1卫       1
6室4厅2卫       1
3室2厅5卫       1
7室3厅4卫       1
3室4厅4卫       1
3室0厅0卫       1
7室4厅3卫       1
Name: houseType, Length: 92, dtype: int64
中    15319
高    13935
低    11669
Name: houseFloor, dtype: int64
6     15775
18     3535
11     2861
5      2720
14     2164
7      1355
17     1354
16     1139
13      874
15      802
12      734
24      727
8       620
4       477
19      458
21      454
20      450
3       400
10      395
9       388
25      382
27      375
22      299
26      288
29      283
28      238
32      227
31      197
23      155
2       120
30      116
33      108
37       93
1        92
36       55
35       55
34       54
38       33
49       21
56       12
43        7
39        7
41        6
40        6
53        5
0         5
88        2
Name: totalFloor, dtype: int64
南       34052
南北       2211
北        2034
暂无数据      911
东南        635
东         544
西         251
西南        210
西北         52
东西         23
Name: houseToward, dtype: int64
其他    28691
精装    10761
简装     1162
毛坯      309
Name: houseDecoration, dtype: int64
XQ01834    357
XQ01274    192
XQ02273    188
XQ03110    185
XQ02337    173
XQ01389    166
XQ01658    163
XQ00530    151
XQ01561    151
XQ02789    151
XQ01339    132
XQ00826    122
XQ01873    122
XQ02296    121
XQ01232    119
XQ01401    118
XQ02441    117
XQ00196    115
XQ01207    109
XQ02365    109
XQ01410    108
XQ00852    105
XQ02072    103
XQ01672    103
XQ01375     99
XQ01642     99
XQ01634     98
XQ01970     96
XQ00210     93
XQ01413     92
          ... 
XQ00731      1
XQ00056      1
XQ02617      1
XQ03549      1
XQ03704      1
XQ02575      1
XQ02850      1
XQ00367      1
XQ03500      1
XQ03805      1
XQ01539      1
XQ02542      1
XQ01729      1
XQ00691      1
XQ01655      1
XQ03612      1
XQ01627      1
XQ03409      1
XQ02629      1
XQ01064      1
XQ01528      1
XQ04183      1
XQ00815      1
XQ01526      1
XQ02505      1
XQ03341      1
XQ02514      1
XQ00193      1
XQ03427      1
XQ02494      1
Name: communityName, Length: 4160, dtype: int64
SH    40923
Name: city, dtype: int64
RG00002    11227
RG00005     5651
RG00003     4172
RG00010     3636
RG00012     3362
RG00004     3326
RG00006     1961
RG00007     1605
RG00008     1232
RG00001     1147
RG00013     1136
RG00014     1062
RG00011      753
RG00009      652
RG00015        1
Name: region, dtype: int64
BK00031    1958
BK00033    1835
BK00045    1807
BK00055    1550
BK00056    1512
BK00052    1369
BK00017    1303
BK00041    1263
BK00051    1252
BK00054    1251
BK00046    1225
BK00042    1135
BK00035    1134
BK00009    1016
BK00050     966
BK00043     928
BK00026     898
BK00047     879
BK00034     847
BK00013     833
BK00053     810
BK00028     745
BK00040     671
BK00010     649
BK00029     645
BK00062     618
BK00018     613
BK00022     613
BK00064     581
BK00060     575
           ... 
BK00037     412
BK00012     410
BK00020     384
BK00038     383
BK00024     374
BK00002     357
BK00065     347
BK00039     343
BK00027     334
BK00057     275
BK00063     259
BK00015     249
BK00021     226
BK00006     222
BK00007     220
BK00066     219
BK00030     215
BK00049     211
BK00004     184
BK00048     165
BK00025     155
BK00008     145
BK00023     123
BK00059     122
BK00044      96
BK00016      40
BK00036      26
BK00058      15
BK00032       3
BK00001       1
Name: plate, Length: 66, dtype: int64
1994    2842
暂无信息    2773
2006    1964
2008    1831
2007    1816
2005    1775
2010    1749
1995    1680
1993    1543
2011    1472
2004    1393
2009    1238
2014    1231
2003    1121
1997    1120
2002    1084
2012    1041
1996     991
2000     914
2001     882
2015     826
1999     815
2013     702
1998     702
1987     629
1983     610
1991     545
1984     493
1980     451
1990     429
        ... 
1974      39
1960      33
1930      30
1973      23
1955      20
1932      19
1952      12
1936      12
1931      11
1968      10
2017       9
1965       8
1967       7
1937       5
1910       5
1920       5
1940       4
1949       4
1963       4
1970       3
1912       3
1959       3
1969       3
1972       2
1939       2
1926       2
1961       2
1962       1
1950       1
1951       1
Name: buildYear, Length: 80, dtype: int64
0     29594
1      2145
2      1992
3      1638
4      1269
5       818
6       708
7       607
8       460
9       295
11      289
10      243
14      179
13      146
12      144
18       80
27       57
15       54
19       43
21       40
17       34
16       21
23       21
20       20
26       15
38        6
34        3
52        2
Name: saleSecHouseNum, dtype: int64
6     6729
2     6159
3     5896
5     4888
1     3429
7     3184
11    2349
4     1825
14    1787
22    1369
9     1263
13    1135
0      910
Name: subwayStationNum, dtype: int64
151    1992
461    1958
96     1835
824    1807
258    1512
276    1369
92     1303
144    1263
364    1252
306    1251
167    1225
98     1177
441    1135
178    1134
56     1016
60      966
101     898
172     879
78      847
72      833
190     810
67      745
95      683
138     671
62      649
27      645
196     618
83      613
156     613
114     610
36      581
82      575
88      575
29      569
105     549
45      521
42      497
34      454
68      412
169     383
24      374
52      365
79      357
41      343
74      334
331     275
25      259
48      215
184     211
30      184
70      155
47      123
128     122
141      96
387      40
131      26
264      15
284       3
356       1
Name: busStationNum, dtype: int64
0    16070
1     8152
2     6345
3     5145
4     3653
6     1193
8      365
Name: interSchoolNum, dtype: int64
53     2851
21     2566
48     2446
10     2271
71     1958
61     1826
99     1807
30     1546
98     1512
13     1484
24     1458
142    1369
22     1303
60     1252
62     1135
47     1069
32     1062
43      966
28      938
50      898
64      833
69      745
41      672
37      649
20      618
39      613
44      610
38      521
18      512
59      410
23      383
45      374
72      334
65      275
9       275
29      222
74      219
26      211
14      184
11      165
57      123
16      122
15       96
52       40
Name: schoolNum, dtype: int64
2     8511
1     5443
9     4852
5     4039
8     3816
13    1846
15    1835
3     1425
7     1419
12    1369
4     1289
6     1239
11     866
16     847
0      846
24     671
10     610
Name: privateSchoolNum, dtype: int64
1     7698
6     7005
2     6172
5     5388
3     3084
8     2634
0     2608
4     2023
11    1807
14    1369
9     1135
Name: hospitalNum, dtype: int64
40     2611
39     2208
31     2077
69     1992
106    1958
34     1864
36     1835
174    1807
88     1512
35     1407
118    1369
65     1263
37     1262
83     1252
94     1251
54     1225
145    1135
47     1134
27     1077
22     1005
24      966
15      936
11      904
41      850
67      671
49      618
48      610
12      581
28      521
17      464
55      383
19      365
33      357
20      345
85      275
13      249
8       184
29      155
23      122
21       96
25       26
52        1
Name: drugStoreNum, dtype: int64
16    3082
26    2891
34    2484
25    2482
27    2008
41    1992
36    1958
88    1807
35    1515
52    1512
64    1369
30    1252
37    1251
40    1175
23    1139
84    1135
38    1099
28     956
56     898
43     893
20     844
32     833
13     797
6      660
15     581
82     575
5      469
10     464
78     412
8      386
22     383
39     374
48     275
1      249
21     219
12     215
14     165
18     123
19       1
Name: gymNum, dtype: int64
21     3141
43     3034
86     2323
34     1992
52     1835
119    1807
50     1708
31     1684
75     1512
95     1369
35     1281
16     1256
47     1252
91     1135
22     1134
29     1134
23     1016
37      966
18      928
62      898
13      879
53      833
28      752
46      745
24      726
41      649
27      645
207     575
7       508
38      454
42      410
69      374
20      357
15      347
92      275
33      222
11      184
12      165
98      155
9       122
10       96
14       26
32       15
25        3
49        1
Name: bankNum, dtype: int64
154    2475
236    1992
598    1958
162    1835
824    1807
341    1512
483    1369
171    1303
301    1263
358    1252
419    1251
167    1225
671    1135
214    1134
189    1062
215    1001
85      966
150     928
231     898
175     879
224     834
223     833
211     745
65      645
243     613
206     613
318     610
76      581
199     575
200     549
96      521
97      497
118     464
142     454
160     412
354     410
140     374
90      365
151     357
109     347
80      343
306     334
100     318
404     275
10      259
84      249
143     219
163     211
42      184
99      165
245     155
77      122
112      26
134      15
340       3
353       1
Name: shopNum, dtype: int64
8     5990
3     5125
6     4648
7     3827
5     3609
4     2473
1     2182
11    2130
24    1807
0     1484
23    1369
10    1263
14    1251
2     1170
30    1135
12     610
13     575
26     275
Name: parkNum, dtype: int64
5     5735
7     5532
2     5103
6     4318
4     3723
1     3316
3     2460
12    1958
19    1807
8     1615
10    1252
9     1230
16    1135
0      675
15     575
11     334
14     155
Name: mallNum, dtype: int64
56     3154
78     1992
119    1958
47     1835
299    1807
130    1512
154    1369
63     1357
74     1303
109    1263
131    1252
126    1251
100    1225
159    1135
60     1134
32     1018
37     1016
30      966
46      928
61      879
58      847
21      840
22      796
53      745
31      714
75      671
36      649
15      645
98      618
103     610
55      575
38      495
41      464
42      454
51      445
43      412
88      383
35      365
48      357
145     275
11      259
16      249
23      222
5       184
29      155
34       96
49       40
83        3
71        1
Name: superMarketNum, dtype: int64
0             400
1095010000    384
1492450000    367
878170000     339
274540000     313
1526020000    312
540310000     305
729200142     297
2352500000    291
624380000     278
710550000     258
572880000     256
990170000     255
1325200000    229
1568110000    226
386440000     224
1410910000    206
748720000     206
576650000     201
1055700000    201
985130000     196
614710000     194
742490000     194
553230000     190
960190000     185
687200000     183
588095044     181
1116240000    181
633260000     180
825670000     180
             ... 
362980000       4
319309254       3
161010000       3
280450000       3
100767000       3
73449000        3
277309800       3
205005393       3
58430000        3
161230000       3
298040000       3
340160000       3
260600000       2
156460000       2
64580000        2
287410000       2
99570000        2
198660000       2
557710000       2
70610000        2
391150000       1
587540000       1
38601000        1
107995000       1
534310000       1
328840000       1
40660000        1
64970000        1
162120000       1
387680000       1
Name: totalTradeMoney, Length: 704, dtype: int64
0.00        400
39571.94    384
28948.29    367
21523.39    339
7307.14     313
33113.51    312
16996.80    305
22785.64    297
47822.58    291
29637.50    278
33329.33    258
17397.25    256
41686.68    255
25884.85    229
36498.63    226
17643.29    224
28261.49    206
33984.06    206
27429.83    201
20330.15    201
35447.66    196
28681.20    194
18218.83    194
12114.88    190
42188.64    185
31489.56    183
22301.95    181
19502.99    181
60550.85    180
15618.20    180
           ... 
10495.60      4
5020.46       3
8920.87       3
16225.33      3
6345.37       3
6676.79       3
2608.20       3
4256.26       3
7014.18       3
5378.35       3
7538.25       3
3491.61       3
2135.46       2
15996.75      2
7601.55       2
3754.79       2
2818.41       2
3430.99       2
13522.05      2
8885.35       2
4333.89       1
3076.62       1
2738.77       1
3948.31       1
5931.38       1
21318.02      1
25277.65      1
17712.19      1
3477.78       1
30776.49      1
Name: totalTradeArea, Length: 705, dtype: int64
0.00000         400
27671.37522     384
51555.72229     367
40800.72888     339
37571.47119     313
46084.51354     312
31788.92497     305
32002.61840     297
49192.24350     291
21067.22902     278
21319.06042     258
32929.34228     256
23752.67112     255
51195.96984     229
42963.53041     226
21902.94441     224
49923.41168     206
22031.50536     206
21022.73328     201
51927.80181     201
27791.11513     196
21432.50631     194
40753.98914     194
45665.33057     190
22759.44425     185
21823.10582     183
50051.22870     181
30154.09658     181
40546.28574     180
13635.97703     180
               ... 
23918.25058       4
30704.18465       3
22402.42313       3
50321.61308       3
23675.01046       3
33409.29752       3
21035.85452       3
17091.16548       3
32114.58711       3
48496.04658       3
29936.69062       3
37203.59500       3
30241.72778       2
73367.93154       2
17966.77450       2
70486.55093       2
17608.76049       2
26518.12751       2
19272.22574       2
20580.06581       2
23243.45815       1
14846.08054       1
27332.59376       1
12546.56084       1
18565.74483       1
27352.20892       1
112471.17410      1
18185.55382       1
17360.97911       1
14991.15114       1
Name: tradeMeanPrice, Length: 705, dtype: int64
441    696
306    548
391    526
363    501
180    468
214    464
241    463
217    411
0      400
215    378
153    365
102    352
206    342
237    322
235    321
192    319
159    308
189    306
188    306
216    304
156    300
296    297
573    291
137    287
167    284
174    284
199    281
145    279
331    278
45     275
      ... 
7       25
224     24
26      24
116     24
17      23
423     22
106     20
78      19
72      19
211     18
442     18
254     17
81      16
2       15
107     15
35      13
308     12
11      12
315     11
69      11
291     11
115     11
8        9
34       8
84       7
60       6
32       5
103      4
186      2
374      1
Name: tradeSecNum, Length: 333, dtype: int64
0             8109
638574496      384
108869018      367
1116882        339
2128312204     313
60345364       312
75501057       305
67411361       297
426759254      278
642752642      258
11669397       256
369178         255
1912195796     229
12008232       226
110899720      224
1813443922     206
320115853      206
136592160      201
835589786      201
368323813      196
1094612713     194
1468063801     185
258987901      183
2460677685     181
696988321      181
339974444      180
3856413894     180
402935751      179
84494530       178
274032611      175
              ... 
200037337        3
186178413        3
205416028        3
41393686         3
197866581        3
77599271         3
597119806        3
160528492        3
218303198        3
179622639        3
353593073        3
427625228        2
100041325        2
303132597        2
609960202        2
259205126        2
119296707        2
237966465        2
206449380        2
388400057        1
285756825        1
235549643        1
161898101        1
13329914         1
55724604         1
673617398        1
20569829         1
28717362         1
36991652         1
166929563        1
Name: totalNewTradeMoney, Length: 557, dtype: int64
0        8109
15669     384
1528      367
197       355
63        339
60621     313
877       312
1897      305
2171      297
12627     278
286       271
18022     258
84        255
24405     229
299       228
3266      224
24079     206
8997      206
11949     201
4524      201
9181      196
32299     194
41256     185
9586      183
16679     181
33046     181
6311      180
55034     180
10281     179
1463      178
         ... 
609         3
3053        3
5386        3
5250        3
258         3
3762        3
7416        3
6128        3
8542        3
11581       3
1526        3
4521        2
15155       2
8490        2
766         2
4803        2
6878        2
2230        2
23093       2
255         1
6699        1
9307        1
8036        1
1829        1
5063        1
26101       1
933         1
6808        1
1597        1
2432        1
Name: totalNewTradeArea, Length: 532, dtype: int64
0.00000         8109
40754.00447      384
71249.35733      367
17728.28571      339
35108.49712      313
68808.85291      312
39800.24091      305
31050.83418      297
33797.35915      278
35664.88969      258
40802.08741      256
4394.97619       255
78352.62430      229
60955.49239      226
33955.82364      224
35580.28821      206
75312.26056      206
69929.68332      201
30192.78515      201
40118.04956      196
33889.98771      194
35584.24959      185
27017.30659      183
41788.37586      181
74462.19467      181
53870.13849      180
70073.29822      180
39192.27225      179
57754.29255      178
40322.63258      175
                ... 
50046.86940        3
22217.28295        3
33349.91441        3
50851.42267        3
33520.89230        3
51560.29756        3
23163.96406        3
35462.55486        3
67969.92775        3
42671.05051        3
71504.48673        3
34598.20660        2
130602.25200       2
116235.48250       2
35704.66396        2
26413.20755        2
45664.53882        2
24837.95690        2
28216.77519        2
24918.57934        1
52274.17255        1
17395.30472        1
25808.10689        1
46523.72961        1
41973.68170        1
17982.06763        1
20225.06944        1
22046.97642        1
48332.51083        1
22913.07730        1
Name: tradeNewMeanPrice, Length: 556, dtype: int64
0      8109
1      3669
2      3238
6      1220
4      1197
9       977
3       854
5       743
7       731
8       666
11      548
14      440
44      429
105     415
12      405
19      403
46      401
181     384
10      349
17      336
90      335
45      322
551     313
34      309
119     308
20      306
21      302
84      283
59      277
33      271
       ... 
108      37
68       36
115      30
268      29
49       28
25       26
180      26
70       25
164      25
109      24
54       22
367      20
255      19
67       19
227      19
80       18
184      17
245      16
97       16
37       14
200      14
65        7
41        6
69        4
71        4
558       4
241       2
139       2
101       1
274       1
Name: tradeNewNum, Length: 157, dtype: int64
2       1305
0       1271
17      1028
7        851
86       783
3        780
407      637
215      580
214      576
87       428
1        408
1026     384
740      361
228      349
48       336
92       333
44       324
52       323
82       319
85       316
307      314
2122     313
946      278
14       270
83       262
760      258
125      258
247      257
102      253
735      248
        ... 
360        7
572        6
524        6
827        6
851        6
483        5
110        5
559        5
468        4
4957       4
997        3
874        3
272        3
5290       3
103        3
474        3
445        3
421        2
4658       2
4544       2
4413       2
254        2
513        2
4351       1
840        1
74         1
867        1
4713       1
715        1
117        1
Name: remainNewNum, Length: 391, dtype: int64
0       32636
328       366
480       332
422       278
350       224
147       207
538       206
444       201
38        201
889       196
402       194
360       183
126       181
564       180
376       173
242       171
588       159
373       158
141       157
1046      151
437       150
57        143
484       137
1015      131
204       129
586       116
283       110
103       102
266       102
539       101
        ...  
120        33
387        30
231        30
320        30
86         29
12         26
250        25
96         25
1347       20
152        18
84         18
418        16
827        16
4          15
16         15
364        15
194        14
380        14
324        13
34         12
190         8
148         5
391         4
1038        4
248         3
263         3
590         3
71          3
72          2
446         2
Name: supplyNewNum, Length: 104, dtype: int64
0    35865
1     3126
2     1532
3      400
Name: supplyLandNum, dtype: int64
0.00         35865
90735.72       384
69919.92       255
105389.75      201
50803.74       196
255930.40      194
119850.56      183
187973.55      180
59981.40       179
138730.80      175
243769.88      159
135592.82      152
92751.20       149
128074.77      143
113075.80      135
88880.66       131
170720.70      130
411876.30      129
120615.78      121
112848.48      110
116648.64      104
59519.90       102
203724.72       94
30053.50        91
66038.49        86
108037.80       76
85269.20        74
96818.60        70
5113.60         65
26852.70        62
41130.80        60
283802.37       59
27060.24        58
40333.40        57
80218.58        55
72586.20        55
16065.27        54
155096.80       50
88191.75        47
182724.80       42
186898.91       41
32855.00        41
65655.53        41
555508.01       37
23756.75        37
135663.00       36
119340.36       29
101530.52       28
32488.38        27
33001.59        26
247712.44       25
98038.62        15
73496.64         7
68800.65         1
Name: supplyLandArea, dtype: int64
0    37197
1     2336
2      742
3      489
5      159
Name: tradeLandNum, dtype: int64
0.00         37197
112848.48      384
50803.74       196
162127.95      194
237828.35      180
25923.12       179
382500.68      159
255443.38      143
128074.77      139
203724.72      137
88880.66       131
197633.56      130
180222.60      129
190535.70      114
229724.44      104
59519.90       102
108037.80       76
85269.20        74
30053.50        73
328472.30       70
71152.09        65
40333.40        62
213401.12       59
92427.50        58
70401.25        55
41130.80        55
32488.38        50
26852.70        49
40223.34        45
155096.80       45
186898.91       43
62519.25        42
132870.00       42
65655.53        39
27060.24        39
33001.59        38
10467.00        37
152468.56       33
23756.75        29
16065.27        27
555508.01       26
32855.00        26
215627.62       25
12907.62        17
73496.64         5
68800.65         1
Name: tradeLandArea, dtype: int64
0             37197
400600000       384
182500000       196
2238680000      194
1078790000      180
88840000        179
1065270000      159
4640750000      143
1024600000      139
4278220000      137
1015190000      131
1136400000      130
551480000       129
2660380000      114
1086940000      104
253960000       102
332760000        76
282220000        74
268230000        73
1004970000       70
301080000        65
125030000        62
1090900000       59
2790750000       58
237200000        55
215520000        55
1010890000       50
85810000         49
743840000        45
144400000        45
6197570000       43
284460000        42
573070000        42
95230000         39
2462940000       39
110890000        38
78000000         37
1248900000       33
171070000        29
118470000        27
142300000        26
4262630000       26
931620000        25
93310000         17
441150000         5
135350000         1
Name: landTotalPrice, dtype: int64
0.000000        37197
3549.892741       384
3592.255216       196
13808.106500      194
3427.056620       179
4536.002541       172
2785.014657       159
18167.431080      143
21000.004320      137
8000.014367       135
11421.944890      131
5750.035571       130
3059.993586       124
13962.632720      114
4731.494829       104
4266.808244       102
3080.033100        76
3309.753111        74
8925.083601        73
3059.527394        70
4231.499033        65
3099.912232        62
5111.969422        59
30193.935790       58
5766.967820        55
3061.309281        55
31115.432660       50
3195.581822        49
4795.972580        45
3589.955484        45
33160.011470       43
4549.958613        42
4313.012719        40
3519.185344        39
3360.141133        38
7451.991975        37
37513.062490       35
8191.196926        33
7200.900797        29
4331.152032        26
7673.390704        26
4320.504024        25
7374.292496        25
7229.063143        17
4536.000000         8
3059.990000         5
6002.315208         5
8000.010000         4
37513.060000        4
7374.290000         2
4313.010000         2
1967.277925         1
Name: landMeanPrice, dtype: int64
4370      1992
28546     1958
50134     1835
46725     1807
388879    1512
48204     1369
5622      1303
68476     1263
8750      1252
8498      1251
19615     1225
120140    1135
34941     1134
4420      1016
77645      966
253330     928
76668      898
14455      879
19151      847
41503      833
166244     810
74225      745
17401      671
133074     649
49805      645
20904      618
45310      613
5271       613
13192      610
28248      581
          ... 
3162       497
12003      464
88718      454
77347      412
120755     410
13983      383
102958     374
171475     365
23762      357
38947      347
11209      343
349715     334
36894      275
15495      259
3725       249
47329      222
4683       219
90828      215
14823      211
32328      184
4907       165
338301     155
93770      123
18000      122
800         96
1190        40
1350        26
13736       15
600          3
132370       1
Name: totalWorkers, Length: 63, dtype: int64
0        34048
724        158
765        152
657        143
5185       139
458        137
4506       129
28313      109
1467       109
3866       107
20898      102
847         89
3052        87
91873       86
1308        86
783         83
366         83
124         82
6133        81
1074        78
851         77
29901       77
1665        76
1680        74
96          74
844         73
218         73
8834        71
12790       70
14987       68
         ...  
39          12
193         11
1297        11
146         11
99          11
22054       10
56          10
169          9
321          9
66           8
5726         8
172          8
12143        8
951          7
43           7
83           6
280          5
4687         5
1398         5
1675         5
38056        4
130          4
1841         4
62           3
50           3
161          3
1584         3
371          3
153          1
142          1
Name: newWorkers, Length: 178, dtype: int64
306857    1992
371900    1958
226469    1835
928198    1807
491767    1512
719428    1369
210903    1303
248647    1263
253337    1252
428071    1251
274232    1225
589930    1135
330610    1134
165293    1016
131744     966
165159     928
207376     898
126959     879
187939     847
301635     833
190706     810
318387     745
319860     671
134380     649
98604      645
245872     618
201051     613
260515     613
406803     610
111546     581
          ... 
52091      497
97196      464
194111     454
153762     412
309216     410
223020     383
70013      374
130886     365
196135     357
157682     347
134822     343
266779     334
423445     275
49330      259
63153      249
107099     222
224753     219
95192      215
157552     211
84876      184
92892      165
102698     155
186642     123
128045     122
125309      96
250864      40
215146      26
145454      15
234932       3
199528       1
Name: residentPopulation, Length: 63, dtype: int64
52511.0    384
17471.0    367
25211.0    339
61150.0    313
42301.0    312
26130.0    305
23976.0    297
29847.0    291
34441.0    278
72018.0    258
36938.0    256
31340.0    255
3044.0     230
48036.0    229
33764.0    226
24896.0    224
74509.0    206
42179.0    206
50416.0    201
21484.0    201
73797.0    196
29091.0    194
59451.0    194
7985.0     190
40787.0    185
20366.0    183
29335.0    181
33164.0    181
26189.0    180
28946.0    180
          ... 
11666.0      3
2930.0       3
15539.0      3
3426.0       3
338.0        3
12583.0      3
419.0        3
711.0        3
1713.0       3
16084.0      3
13911.0      3
11683.0      2
43961.0      2
4308.0       2
6749.0       2
10398.0      2
10844.0      2
10924.0      2
10969.0      2
7480.0       1
9476.0       1
1979.0       1
13557.0      1
10863.0      1
13677.0      1
19092.0      1
18348.0      1
8701.0       1
352.0        1
4189.0       1
Name: pv, Length: 709, dtype: int64
4868.0    384
2554.0    367
2889.0    342
2187.0    339
5822.0    313
4009.0    312
2703.0    305
3500.0    305
2544.0    297
3035.0    278
5286.0    258
3065.0    255
7396.0    229
4005.0    226
2308.0    224
2957.0    221
5942.0    206
6647.0    206
2570.0    201
4723.0    201
847.0     200
2048.0    199
7616.0    196
7555.0    194
2999.0    194
2942.0    185
1867.0    183
4892.0    181
2654.0    181
3512.0    180
         ... 
2857.0      5
1059.0      5
509.0       5
433.0       4
290.0       4
1960.0      4
273.0       4
993.0       4
1595.0      3
189.0       3
230.0       3
1655.0      3
1699.0      3
117.0       3
1257.0      3
101.0       3
551.0       2
697.0       2
1149.0      2
825.0       2
516.0       2
934.0       2
651.0       1
1216.0      1
754.0       1
79.0        1
203.0       1
933.0       1
428.0       1
744.0       1
Name: uv, Length: 649, dtype: int64
0     36755
1      1134
2       886
3       549
4       398
5       290
6       209
7       153
8       133
9        89
10       78
11       52
12       48
13       34
15       23
14       22
17       17
16       13
19       11
18        9
21        4
23        3
20        2
37        2
25        2
29        1
22        1
24        1
26        1
27        1
28        1
30        1
Name: lookNum, dtype: int64
2018/3/3      543
2018/3/4      487
2018/3/11     410
2018/3/10     398
2018/3/24     341
2018/3/18     334
2018/3/1      331
2018/3/17     328
2018/3/5      296
2018/2/25     291
2018/3/8      290
2018/3/25     281
2018/3/2      276
2018/3/9      267
2018/3/31     257
2018/3/12     257
2018/3/7      250
2018/6/10     247
2018/8/19     231
2018/3/6      228
2018/7/29     224
2018/2/28     222
2018/7/1      220
2018/3/15     218
2018/8/26     216
2018/5/20     215
2018/5/27     215
2018/7/14     209
2018/6/23     208
2018/4/22     208
             ... 
2018/12/6      40
2018/1/23      39
2018/12/7      39
2018/12/20     37
2018/1/29      37
2018/12/14     35
2018/10/2      35
2018/2/11      34
2018/1/10      33
2018/1/14      32
2018/1/6       32
2018/1/25      32
2018/1/15      31
2018/1/30      30
2018/1/22      29
2018/1/5       27
2018/1/8       27
2018/1/19      21
2018/1/3       19
2018/1/17      18
2018/1/16      17
2018/1/1       16
2018/2/12      14
2018/1/18      14
2018/1/4       14
2018/1/2        5
2018/2/13       4
2018/2/20       2
2018/2/19       1
2018/2/17       1
Name: tradeTime, Length: 361, dtype: int64
4000.0     1450
3500.0     1345
4500.0     1221
3000.0     1209
5000.0     1165
3800.0     1083
3600.0      889
4300.0      863
4200.0      838
3300.0      834
4800.0      762
3200.0      758
6000.0      738
2800.0      719
5500.0      694
3400.0      605
3700.0      594
2500.0      554
4600.0      544
6500.0      494
5200.0      483
2000.0      472
3900.0      470
2600.0      463
5300.0      446
4100.0      428
3100.0      420
5800.0      404
7000.0      395
8000.0      365
           ... 
2280.0        1
15300.0       1
4980.0        1
5688.0        1
10628.0       1
4410.0        1
8260.0        1
9833.0        1
5399.0        1
4761.0        1
2205.0        1
1333.0        1
2210.0        1
6690.0        1
3666.0        1
13400.0       1
1880.0        1
5320.0        1
3077.0        1
3780.0        1
3392.0        1
4338.0        1
9885.0        1
16900.0       1
13999.0       1
3720.0        1
4920.0        1
1620.0        1
4232.0        1
1225.0        1
Name: tradeMoney, Length: 721, dtype: int64

df_train['tradeMoney'].describe()
count    40923.000000
mean      4540.762530
std       2863.714333
min        100.000000
25%       2800.000000
50%       3900.000000
75%       5300.000000
max      20000.000000
Name: tradeMoney, dtype: float64
sns.distplot(df_train['tradeMoney']);

在这里插入图片描述

print("Skewness: %f" % df_train['tradeMoney'].skew())
print("Kurtosis: %f" % df_train['tradeMoney'].kurt())
Skewness: 2.120234
Kurtosis: 6.086869
df_types=['int16', 'int32', 'int64', 'float16', 'float32', 'float64']
#去掉两个不同无关列
drop_feature=['ID','tradeMoney']
num_feature=[]
other_feature=[]
for i in df_train.columns:
    if i not in drop_feature:
        if df_train[i].dtype in df_types:
            num_feature.append(i)
        else:
            other_feature.append(i)
print(other_feature)
['rentType', 'houseType', 'houseFloor', 'houseToward', 'houseDecoration', 'communityName', 'city', 'region', 'plate', 'buildYear', 'tradeTime']
plt.rcParams['font.sans-serif']=['SimHei']
var = other_feature[0]
data = pd.concat([df_train['tradeMoney'], df_train[var]], axis=1)
f, ax = plt.subplots(figsize=(8, 6))
fig = sns.boxplot(x=var, y="tradeMoney", data=data)
fig.axis(ymin=0, ymax=20000);

for name in num_feature:
    var = name
    data = pd.concat([df_train['tradeMoney'], df_train[var]], axis=1)
    data.plot.scatter(x=var, y="tradeMoney", ylim=(0, 50000))

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

在这里插入图片描述

在这里插入图片描述

不同的特征值的样本的label的分布

corrmat = df_train.corr()
f, ax = plt.subplots(figsize=(12, 9))
sns.heatmap(corrmat, vmax=.8, square=True);

在这里插入图片描述

k = 10 #number of variables for heatmap
cols = corrmat.nlargest(k, 'tradeMoney')['tradeMoney'].index
cm = np.corrcoef(df_train[cols].values.T)
sns.set(font_scale=1.25)
hm = sns.heatmap(cm, cbar=True, annot=True, square=True, fmt='.2f', annot_kws={'size': 10}, yticklabels=cols.values, xticklabels=cols.values)
plt.show()

在这里插入图片描述


发布了5 篇原创文章 · 获赞 0 · 访问量 115

猜你喜欢

转载自blog.csdn.net/weixin_43535441/article/details/97228478
今日推荐