爬虫類 - 今日のヘッドライン

今日の見出しの1分析

  データはページの外に表示するように見出しを見たときのパッケージの一部は、JSコードやCSSコードを持っているので、あなたは、データページを考慮する必要があり、この時間は内部のクッキーで囲まれていない見つけることができます

  あなたはs_v_web_idにクッキーフィールドを見つけ、その後、現在のWebページを取得しようと行くことができるクッキーが本当にソースコードであるので、我々は、クッキーとウェブサーバに基づいて一緒に考えることができます見て振り返ってみると、実際のデータを取得するために過去を送信します

図2に示すように、適切な方法のクロールを選択

  我々はそれが内部に行くことです。この内容を解析した後、実際のデータを取得し、私は詳しく見ていくと、私は辞書内のデータに持っているすべての情報なので、Iサイクルデータを見つけた場合は、その後、取得タイトルとidの内側(idはステッチの必要性があることを覚えているので、手動でのみスプライシング)

3、選択ストレージ

  あなたはモンゴにデータを直接保存することができますので、私は、ストレージ内のコードを書いていないが、私は一般的に、よりMongoDBの使用します

 

特定のコード:https://github.com/1213William/toutiao_spider

おすすめ

転載: www.cnblogs.com/tulintao/p/11486268.html