愛情の熱狂的なショーで友人の昨日の円は、520枚の赤い封筒を見ます!法的教育アウトだから、何人かの人々 。。。
しかし、赤い封筒の古い鉄バーストの多くの機会がありません。。。
なぜこれほど多くの学生が、それはまだ独身とても良いですか?
まず、需要の背景
マイクロブログを訪問することは、興味深いトピック#90単一の理由TOP3#た今日、
結婚の若者が全国90のビューのために七夕機会、サンプル調査結果を発表しました。結果は、単一の層の都市の割合がリードし続けていることを示しました。90の独身の理由TOP3:仕事で忙しい小さな円、あまりにも完璧な愛のファンタジー。
シングル3の主な理由:小さな円、仕事で忙しい、愛のファンタジーあまりにも完璧!
紳士は、これらの3つの理由が不合理です、理由はそれはあなたが悪いため、単一のものではないと思いますか?
第二に、機能説明
この調査は来るか興味がありましたか?検証する真正、私たちはなぜこれほど良いが、まだシングルを検証するために、今日マイクロブログトピックをクロールする方法を学びましたちょうどここ数日!
第三に、技術的なプログラム
- アナログログインマイクロブログ
- クロールトピック
- ファイルを保存します
- データクリーニング
- データ分析
第四に、アナログログイン
アナログログインクロールの前にいえば、その後、の##周杰倫(ジェイ・チョウ)のここでそれを繰り返す、時間がの話していない、直接コードを掲載!
第五に、クロールトピック
1.データのURLをロードするトピックを検索します
2.代码模拟请求数据
我们依然使用requests库来爬取数据,这次猪哥在请求的时候增加了一个参数:timeout,这样做是为了防止请求某个一直没有应答导致堵死其他请求!
3.提取微博内容
要想提取微博内容就需要了解请求返回的数据格式
了解数据格式之后我们就可以写代码提取我们想要的微博内容啦!
上图我们已经拿到微博内容,但是还有很多网页标签,我们来用正则将网页标签去掉,和开头的话题开头!
4.保存文件
微博内容提取出来之后,我们将他们保存起来!
六、批量爬取
批量爬取就涉及分页,上次我们将周杰伦超话时,它的分页机制是:
ページングメカニズムを介して言葉をマイクロブログ:since_idリクエストが来におけるように、時間のページによると、各マイクロボーはsince_idを持って、大きな大きな時間since_idが、それはこの下に、対応するトピックをロードするには、マイクロブログよりも小さいsince_id私たちは、ページングを達成するよう、もう一度、今度要求に、入ってくるsince_id最小since_id最小を取得
トピックがその権利であるページングメカニズム?のは、二度目のURL要求に対する最初の要求比較してみましょう
私たちは、ページング機構のトピックを見つけましたが、普通であることが判明したページのフォームを、マイクロブログが話題の異なるレベルのために、異なるページング機構を有しているようです!
直接入ってくるループ用のページのフォームページングメカニズム、我々は多くのケースについて話す前に、私は、ちょうどこのページのように私は友達になることができます!
七、データ解析
私たちは、データ分析を使用しpyecharts库
、これは視覚的な解析ライブラリを使用することは非常に簡単です!
まず、データを読み取り、その後、jiebaライブラリセグメンテーションとデータクレンジングを使用し、最後の使用pyecharts库
表示のために!
:調査結果は、単一の三つの主要な理由ことを示しているの前に小さな円、仕事で忙しいが、あまりにも完璧なファンタジーが大好きです。これは、得られたデータの我々の分析の結果に真のようです!
あなたは、単一の理由が悪いためであると言う前に、それが唯一の貧しい紳士ようです!