気まぐれは、主に、私は人の口座bのステーションを知りたい、簡単な爬虫類に従事していますが、ユーザーがドラフトをキャストしていない場合、ユーザーの検索を立っB、知っている、あなたはそれから,,,少ない検索より唯一半ばの反対側を取得するための方法を考えることができ,,あるspace.bilibili.com/9444976
数字のその文字列の後ろに。、アンカーの人々は、可能な心配されて見る機会は,,私は人々がこのビデオアンカーに対応すると思うので、私はニックネーム半ばを取得するには、データベースを検索することができるように思考は、すべてのアップに対応するビデオの下にユーザーのコメントを登りました,,ちょっとちょっとちょっと(しかし、退屈なので、私のような誰も,,ない障害が発生した,,,,一部の人々は本当に,,ビデオを返信しません
プロジェクト住所:https://github.com/31415926535x/CollegeProjectBackup/tree/master/BilibiliSpiders
このクローラの主な機能は、(このは考慮がなく、返信のコメントを含めない、もちろん、達成することができますが、気持ちは同じである)内のすべての動画をメインにあきらめレビューをクロールし、最終的にユーザデータに上っていますデータベースに格納されています。(醜い書かれたものの,,,)プロジェクト全体は,,完全にはなく、クロール物事のウェブサイト(DDOS)とその機密データの大きな量に関連するコンテンツの考え方を勉強するだけの目的である、また、商業目的のために使用します
簡単な説明
プロジェクト全体は3つの部分に分かれている、最初のことを、AVビデオのすべてのアップ半ばの指定された数を取るために登ることでCrawlAllVideosOfAUP.py
、このスクリプトは、APIを使用してhttps://api.bilibili.com/x/space/arc/search?mid=mid&ps=30&tid=0&pn=pn&keyword=&order=pubdate&jsonp=jsonp
、スクリプト内の特定の説明を参照してくださいノートを。
あなたが使用して、すべての数字のAVを持っていたらCrawlCommentUsersByVideo.py
、API使用して、指定されたAV番号ですべてのコメントをクロールするhttps://api.bilibili.com/x/v2/reply?pn=**&type=1&oid=***&sort=2
ディレクトリのpnページ情報レビューのAV OID数をクロール(ソート対応未満の順番を示すように見直されるべきですノーチューブは、自分のニーズに応じてスクリプトJikeを変更するための多くの情報をクロールすることができます。
最後は私がしたいメッセージを見つけられませんでしたが、最後に、ライン上の2の統合に加え、細部の少しは,,スクリプトが(おおよそ使用可能です,,,,
具体的なコメントは現在、,, ,,非常に単純なものでは滞在の印象を長い経験をベースに、それを見て。。。。
概要
Pythonの爬虫類に長時間露光の前に,,だけ投げではなく、準備に彼らの完全な努力の上にそれを使用する,,そう,,手を消去すると、おそらく後、私たちは、このような同じようなことに遭遇すると思った,,,
誰か他の人のコードの前に見て、彼は書き込み,,非常に遅い大量のデータを得ることであるので、このスクリプトは、最終的には、特に改めて書か得ながらスレッドに(,, ,,データベースに投げ込まれたデータをクロールしますポップ、クローラは、大量のデータがありますが、データベースを保存一つずつ取得することができますので、commit
あなたは1000年に書かれた旗、または値を追加することができますので,, IOディスクのボトルネックがより明らかにされるとき、再びをcommit
それがあるので、 )、効率的、かつ、放浪
私は自分自身を検討し,,アイデアはシンプルなアイデアであることを、Pythonでスレッドの文言について少し知っている,,,
WindowsでMySQLデータベースについて:私たちは通常、たとえば、ファイルにデータベース構造のいくつかのテーブルをバックアップし233.sql
、コマンドで使用することができるmysqldump -uroot -p databases > 233.sql
というように,,が、Windowsで、このようなコマンドは、PowerShell
バグ,,具体的な理由があります(推測がポットをエンコードされている)下に取得していない、エクスポートされたファイルを使用することはできませんsource 233.sql
、インポートに,,吹くために何が起こっているか'\0'
ASCIIの間違ったような,,その後、ソリューションが変更にあるcmd
,,この間違い初めて参照してください,, ,,混乱と困難なことは管理しますセックス,,簡単すぎる部分QAQ ,,,時間の無駄を取るために,,,
の何もないかのように。。。(終わり)
そうそう、参照を追加します。。。
これは、すべてのユーザー情報と同じ程度のアイデア暴力的な上昇であります
私はデータの量じゃないので、ユーザーエージェントは、私が使用することはできませんので、それを記録し、非常に広いUAを見ます