七夕の後、あなたは、すべての単一の理由の理由を分析しましたか?

愛情の熱狂的なショーで友人の昨日の円は、520枚の赤い封筒を見ます!法的教育アウトだから、何人かの人々 。
ここに画像を挿入説明
しかし、赤い封筒の古い鉄バーストの多くの機会がありません。
ここに画像を挿入説明
なぜこれほど多くの学生が、それはまだ独身とても良いですか?

まず、需要の背景

マイクロブログを訪問することは、興味深いトピック#90単一の理由TOP3#た今日、

結婚の若者が全国90のビューのために七夕機会、サンプル調査結果を発表しました。結果は、単一の層の都市の割合がリードし続けていることを示しました。90の独身の理由TOP3:仕事で忙しい小さな円、あまりにも完璧な愛のファンタジー

シングル3の主な理由:小さな円、仕事で忙しい、愛のファンタジーあまりにも完璧!

紳士は、これらの3つの理由が不合理です、理由はそれはあなたが悪いため、単一のものではないと思いますか?

第二に、機能説明

この調査は来るか興味がありましたか?検証する真正、私たちはなぜこれほど良いが、まだシングルを検証するために、今日マイクロブログトピックをクロールする方法を学びましたちょうどここ数日!

第三に、技術的なプログラム

  1. アナログログインマイクロブログ
  2. クロールトピック
  3. ファイルを保存します
  4. データクリーニング
  5. データ分析

第四に、アナログログイン

アナログログインクロールの前にいえば、その後、の##周杰倫(ジェイ・チョウ)のここでそれを繰り返す、時間がの話していない、直接コードを掲載!
ここに画像を挿入説明

第五に、クロールトピック

1.データのURLをロードするトピックを検索します

ここに画像を挿入説明
https://m.weibo.cn/api/container/getIndex?containerid=100103type%3D61%26q%3D%2390%E5%90%8E%E5%8D%95%E8%BA%AB%E5%8E%9F%E5%9B%A0TOP3%23%26t%3D0&isnewpage=1&extparam=pos%3D41%26c_type%3D31%26realpos%3D40%26flag%3D0%26filter_type%3Drealtimehot%26cate%3D0%26display_time%3D1565179797&luicode=10000011&lfid=106003type%3D25%26t%3D3%26disable_hot%3D1%26filter_type%3Drealtimehot&page_type=searchall

2.代码模拟请求数据

我们依然使用requests库来爬取数据,这次猪哥在请求的时候增加了一个参数:timeout,这样做是为了防止请求某个一直没有应答导致堵死其他请求!
ここに画像を挿入説明

3.提取微博内容

要想提取微博内容就需要了解请求返回的数据格式
ここに画像を挿入説明
了解数据格式之后我们就可以写代码提取我们想要的微博内容啦!
ここに画像を挿入説明
上图我们已经拿到微博内容,但是还有很多网页标签,我们来用正则将网页标签去掉,和开头的话题开头!
ここに画像を挿入説明

4.保存文件

微博内容提取出来之后,我们将他们保存起来!
ここに画像を挿入説明

六、批量爬取

批量爬取就涉及分页,上次我们将周杰伦超话时,它的分页机制是:

ページングメカニズムを介して言葉をマイクロブログ:since_idリクエストが来におけるように、時間のページによると、各マイクロボーはsince_idを持って、大きな大きな時間since_idが、それはこの下に、対応するトピックをロードするには、マイクロブログよりも小さいsince_id私たちは、ページングを達成するよう、もう一度、今度要求に、入ってくるsince_id最小since_id最小を取得

トピックがその権利であるページングメカニズム?のは、二度目のURL要求に対する最初の要求比較してみましょう
ここに画像を挿入説明
私たちは、ページング機構のトピックを見つけましたが、普通であることが判明したページのフォームを、マイクロブログが話題の異なるレベルのために、異なるページング機構を有しているようです!

直接入ってくるループ用のページのフォームページングメカニズム、我々は多くのケースについて話す前に、私は、ちょうどこのページのように私は友達になることができます!
ここに画像を挿入説明

七、データ解析

私たちは、データ分析を使用しpyecharts库、これは視覚的な解析ライブラリを使用することは非常に簡単です!
ここに画像を挿入説明
まず、データを読み取り、その後、jiebaライブラリセグメンテーションとデータクレンジングを使用し、最後の使用pyecharts库表示のために!
ここに画像を挿入説明
:調査結果は、単一の三つの主要な理由ことを示しているの前に小さな円、仕事で忙しいが、あまりにも完璧なファンタジーが大好きですこれは、得られたデータの我々の分析の結果に真のようです!

あなたは、単一の理由が悪いためであると言う前に、それが唯一の貧しい紳士ようです!

おすすめ

転載: www.cnblogs.com/pig66/p/11319227.html