みなさん、こんにちは。HupuNBAの公式ウェブサイトからデータをクロールし、同時にExcelにデータを書き込んで、折れ線グラフを自動的に生成する方法について説明しましょう。主な手順は次のとおりです。
この記事は、個別に説明するために次の2つの部分に分かれています。
Hupu NBA公式ウェブサイトのプレーヤーページをクロールして、プレーヤーデータを取得します。
クロールされたプレーヤーデータをクリーンアップして並べ替え、視覚化します。
プロジェクトに関係する主なPythonモジュール:
リクエスト パンダ bs4
クローラー部分
クローラーを分類するアイデアは次のとおりです
URL1のソースコードを観察し、チーム名と対応するURL2を見つけ、URL2のソースコードを観察し、プレーヤーに対応するURL3を見つけ、URL3のソースコードを観察し、対応するプレーヤーの基本情報とゲームデータを見つけ、フィルタリングしてお店
実際、クローラーはhtmlで動作し、htmlの構造は非常に単純で、大きなボックスと小さなボックスの1つしかなく、小さなボックスは小さなボックスにネストされています。
ターゲットURLは次のとおりです。
URL1:http://nba.hupu.com/players/
URL2(ここではレイカーズチームを例として取り上げます):https://nba.hupu.com/players / ...
URL3(ここではJamesを例として取り上げます):https://nba.hupu.com/players / ...
最初に参照モジュール
bs4からインポートBeautifulSoupimportrequestsimport xlsxwriterimport os
URL1のソースコードを確認すると、チーム名詞とそれに対応するURL2がspanタグ<spanclass>に表示されます。
最近、多くの友人がプライベートメッセージを通じてPythonの学習問題について相談しました。コミュニケーションを促進するには、青をクリックしてディスカッションに参加し、自分でリソースベースに回答してください