今日、「Python クローラー開発: 入門から実践的な戦闘まで」という本を目にしました。興味に導かれて読み始めました。すべてのプログラミングの本と同様に、最初に記事のテーマを説明しました。最初の章では、次の方法が説明されています。 Python のダウンロード、本書で使用されている Python のバージョン、およびさまざまなオペレーティング システム用に Python をダウンロードする方法。
次の章は、Python の基本文法に関する簡単な質問です。それからは爬虫類の知識を学ぶことに興味があります。
まず第一に、正規表現とは何かを理解する必要があります。正規表現は共通言語です。簡単に言うと、正規表現 (略して Regex または RegExp) は、テキストの照合、検索、処理を行うための強力なツールです。これは、文字列の特定の形式を記述するために使用される一連の文字と特殊記号で構成されるパターンです。
Cainiao および主要な学習プラットフォームには正規表現を学習するための教材が用意されています。
以下は、新人チュートリアルの正規表現学習ジャンクションです。
https://m.runoob.com/python/python-reg-expressions.html
今日学んだ最初の関数は findall() です
findall(パターン,文字列,フラグ=0)
findall で:
パターン=正規表現、
string=一致する文字列
フラグ = 特別な機能
最終的にリストを返す
一致しない場合は空のリストが返されます
よく使用されるフラグの 1 つは、re.S が改行を無視することです。
これは次のように出力します:
2 番目の関数は search() 関数です。
re.search(パターン,文字列,フラグ=0)
一致が成功した場合は通常のオブジェクトが返され、失敗した場合は None が返されます。結果を取得したい場合は、 .group() メソッドを使用する必要があります。括弧内の一致する値を取得したい場合は、 .group() メソッドのパラメータを 1 として書き込みます。
パラメータのサイズは正規表現内の括弧に対応しており、i を記述すると i 番目の括弧の内容が表示されることを意味します。
.*? マッチング方法(非貪欲マッチング:条件を満たす最短の文字列を取得)
.*Matching メソッド (貪欲マッチング: 条件を満たす最長の文字列を取得する)
これは次のように出力します:
これら 2 つの機能を理解した後は、単純に re モジュールを使用できます。
爬虫類については後ほどまとめます
最初に大きなマッチングモードを把握し、次に小さなマッチングモードを把握します
クロールする必要があるデータを選択します
有用なデータと役に立たないデータを分類する
次に、Pythonを使用してテキストファイルを読み取ります
Pythonでは2つ知っています
最初:
f = open('文件路径','操作方式',encoding='utf-8')
pass
f.close()
2 番目のタイプ:
with open('文件路径','文件操作方式',encoding='utf-8') as f
pass
操作方法の詳細な説明については、以下のリンクを参照してください。
「Python の基本」ファイル操作、ファイルを開く、ファイルの読み取り、ファイルの書き込み (baidu.com)
re モジュールのマッチングをファイルに書き込み、csv ファイルに 1 行ずつ書き込み、データを保存することができます。
この時代ではデータは非常に貴重であり、コードよりも高価であるとさえ言えます。
(今日の私の学習過程を記録するだけです。スプレーしないでください。見えない場合は修正してください。聞いてください!)