【データ分析】肺炎ニューステキストデータ分析に基づく

記事の具体的な内容については、[データ分析]ニューステキストに基づくデータ分析を参照してください。

データ収集

2020年の新しい冠状肺炎の記憶       から:レポート、ノンフィクション、個人的なナラティブ(継続的な更新)、データはこの記事から取得されます。私の方法は、クローラーを使用して記事ページを取得し、記事のリストと元のテキストリンクを取得して、渡すことです。記事の特定のコンテンツを取得するためのリンク。2020年2月17日の時点で、1351リンクを取得しました。分析の結果、これらのリンクは主に次のリンクからのものであることがわかります:WeChatパブリックアカウント、金融ネットワーク、経済観測ネットワーク、Fangfangブログ、中国ビジネスネットワークトピック、インターフェイスネットワーク、1351リンクこれらのWebサイトからの記事の数は1324で、残りは2つ未満の27であり、直接破棄されます。したがって、クローラーを使用して、対応するWebサイトから記事のコンテンツを取得し、Excelに整理しました。

                            

 

公開された314元の記事 ウォン称賛22 ビュー20000 +

おすすめ

転載: blog.csdn.net/qq_39451578/article/details/105450536