広州のデータと分析ホームリンク中古ハウジング - クロールデータ



ブログの前に基本メソッドのRとrvestパッケージクローラーを共有しました。今それを戦うために:中古住宅のデータのホームネットワーク広州40,000セットのクロールチェーンを。
lianjiaホームページ

前にウェブがRで削れ爬虫類この方法の中で述べているの繰り返しではありません。ここでは、データのウェブサイトのページをクロールする方法を共有することができます。


複数のページに>>ウェブスクレイピング

まず、広州ホームリンクなど、ページ、中古住宅のデータを反転する法律のURLを守ってください。

最初のページ:https://gz.lianjia.com/ershoufang/

2ページ目:https://gz.lianjia.com/ershoufang/pg2/

3ページ目:https://gz.lianjia.com/ershoufang/pg3/

......

URLは「ある、推論することができhttps://gz.lianjia.com/ershoufang/pg」ページ+

1)我々は100ページの住宅価格の1ページに登るする必要があるとします。その後、我々は最初のページのデータをクロールしようとすると、機能にパッケージ化することができます。

getHouseInfo <- function(pageNum, urlWithoutPageNum) {
  url <- paste0(urlWithoutPageNum, pageNum)
  webpage <- read_html(url,encoding="UTF-8")
  total_price_data_html <- html_nodes(webpage,'.totalPrice span')
  total_price_data <- html_text(total_price_data_html)
  data.frame(totalprice = total_price_data)
}

2)次に、上述した機能を使用してページ100、およびマージされたデータフレームにデータのページを複数のデータページ1をクロールループ

url <- "https://gz.lianjia.com/ershoufang/pg"
houseInfo <- data.frame()
for (ii in 1:1553){
  houseInfo <- rbind(houseInfo, getHouseInfo(ii, url))
}


>>サンプルコード

クロールは、我々は4ワット+詳細広州ホームリンク(などの地域、地区を含め、いくつかのホールのいくつかの部屋、とまたはエレベーターのない、)オンライン中古住宅クロールを完了しようとすることができ、データを反転する方法を知っています。

ここからダウンロード

大量のデータは、データをクロールしばらく時間がかかります。クロール完全なデータを保存したい場合は、適切なコーディング、または文字化けする可能性を選択するように注意を払う必要があります。MacのExcelのCVSでのオープンフォーマットを提供します。

データ

おすすめ

転載: www.cnblogs.com/yukiwu/p/10975337.html