爬虫類の内容は難しく、難しく、シンプルでシンプルです、それは皆の要求に依存します!私は2つの爬虫類プログラムを書きました、そしてそれは私の旅を共有するようなものです!結局、AIとCTFがやりたい!
1つ目は、クロールの学習を数日間行った後のラフな製品で、QQ音楽のリストをクロールしただけです(不規則に感じます)。
同様に、主要な技術パスは、requests-bs4メソッドによって実行され、インポート要求およびbs4 import BeautfulSoupから技術サポートを提供します
私が使用したURLは次のとおりです。url = "http://www.9ku.com/music/sshot.htmサードパーティのWebサイトリストサイト
話は安いです私にコードを見せて
MOOCで述べられている基本的なフレームワークを基礎として使用して、ここでget_haveの簡単な概要を示します。タグの下のテキストコンテンツを取得する場合は、Tag.get_text()を使用してテキストコンテンツを取得できます。
もちろん、正規表現を使用することは不可能ではありません
キーコードは次のとおりです:print(re.search( ">。* <"、Str(song))。Group())。ただし、そうすると、左右の山かっこがあまり美しくなくなります
最終的な出力は次のとおりです(部分的)。
クローラーは作っていますが、あまり良くないようです!つまり、バージョン2.0では、ほんの少しの変更だけで、原則は同じです。今回はクロールがKugouです。
コードは少し長いです、私はそれをGitHubに置きます、あなたは批判して修正することを歓迎します
https://gist.github.com/A-Huge-Cat/911a4f1d10721d33f9e0f2f0d2c8a78d(初めてアクセスできるかわかりません。アクセスできない場合は、メッセージを残してください)