環境:R
対象:
1.中古住宅の領域特徴データ
2.エリア二手住宅データを備えてい
?1.生データをインポートします
setwd( "/ユーザ/ MAC /デスクトップ/ lianjia /") D = read.csv( "/ユーザ/ MAC /デスクトップ/ lianjia / Lianjia.csv")
2.データクレンジング
- データフレームフォーマット、およびビューの要約データにデータを設定します
as.data.frame(d)の 概要(D)
- 予備的観察:11個の変数の合計、ターゲット変数が価格であります
- 分析的に有用ではない、第6列ID情報を削除します。平方メートルレートPerPrice(合計/面積)当たりの新機能を追加し、列の順序を調整します。
D < - D [ - 6] DP < - D $価格/ D $サイズ D2 < -変換(D、PerPrice = DP)
3.データの可視化
地域特性の分析3.1
平方メートルのコントラストあたり#主な中古住宅価格 の集計(D2 $ PerPrice、リスト($リージョンD2)、FUN =平均=による) - means1 < //www.rdocumentation.org/packages/stats/versions/3.6:#https 0.2 /トピックス/集計 means1 < - means1 [注文(means1 $ X、T =減少)、] A1 < - means1の$ X BAR1 <の- barplot(A1、names.arg = means1 $ Group.1、家族=「STXihei 」、YLimプロパティ= C(0,15) 、メイン= " 主要領域の平方メートル当たりのレート")
- 二手の住宅価格 11万/フラットについての最も高価な価格西城区の平均価格は、西二環中であるため、学区や人気の集まる場所です。10万/平方程度と海淀/レベル、それ以外の場合は80,000未満/平方85,000程度セカンド東。
- 部屋の二手住宅の数:ビューの定量的統計的観点から、現在の二手の住宅市場は、比較的高温の領域です。海淀区と朝陽区、第二の家の最大数が、近いほとんど3,000台にあり、すべての領域の後、需要も大きいです。そして、豊台区は、近年では、建物を変換され、キャッチアップ傾向があります。
- 中古住宅の合計金額 60百万までのボックスプロットを通して見た、主要エリアの中央値住宅価格が千万以下であり、かつ高い住宅価格離散的な値、西、住宅価格は、理想的な機能ではないことを示します分布は、あまりにもです。
#各大区二手房数量 amount <- table(d2$Region) bar2 <- barplot(sort(amount, decreasing = T), main = "各大区二手房数量", horiz = F, ylim = c(0,4000))