爬虫類学習プログレッシブ

爬虫類の内容は難しく、難しく、シンプルでシンプルです、それは皆の要求に依存します!私は2つの爬虫類プログラムを書きました、そしてそれは私の旅を共有するようなものです!結局、AIとCTFがやりたい!

1つ目は、クロールの学習を数日間行った後のラフな製品で、QQ音楽のリストをクロールしただけです(不規則に感じます)。

同様に、主要な技術パスは、requests-bs4メソッドによって実行され、インポート要求およびbs4 import BeautfulSoupから技術サポート提供します

私が使用したURLは次のとおりです。url = "http://www.9ku.com/music/sshot.htmサードパーティのWebサイトリストサイト

話は安いです私にコードを見せて

 

 MOOCで述べられている基本的なフレームワークを基礎として使用して、ここでget_haveの簡単な概要を示します。タグの下のテキストコンテンツを取得する場合は、Tag.get_text()を使用してテキストコンテンツを取得できます。

もちろん、正規表現を使用することは不可能ではありません

キーコードは次のとおりです:print(re.search( ">。* <"、Str(song))。Group())。ただし、そうすると、左右の山かっこがあまり美しくなくなります

最終的な出力は次のとおりです(部分的)。

 

クローラーは作っていますが、あまり良くないようです!つまり、バージョン2.0では、ほんの少しの変更だけで、原則は同じです。今回はクロールがKugouです。

コードは少し長いです、私はそれをGitHubに置きます、あなたは批判して修正することを歓迎します

https://gist.github.com/A-Huge-Cat/911a4f1d10721d33f9e0f2f0d2c8a78d(初めてアクセスできるかわかりません。アクセスできない場合は、メッセージを残してください)

 

おすすめ

転載: www.cnblogs.com/AhugeCat/p/12751223.html