Pythonは二つの文字列間の類似度を算出するだけでなく、fuzzywuzzyモジュールを提供するだけでなく、候補最も類似文を見つけるために濃縮順序付けられた多数のインタフェースを提供します。
(1)インストール
fuzzywuzzyをインストールするPIP
(2)説明インタフェース
二つのモジュール:ファズ、プロセス、ファズは、主に二つの文字列、主に検索をソートするために使用されるプロセスとの間の一致のために使用されています。
fuzz.ratio(S1、S2)を直接S2とS2との類似度を計算するには、戻り値は同じ0-100,100表します。
fuzz.partial_ratio(S1、S2)部分一致、ストリングS1 S2はまだ100を返す場合、
fuzz.token_sort_ratio(S1、S2)のみS1、S2は、単語間の順序に関係なく、同じ単語である比較します。
単語が表示されますfuzz.token_sort_ratio fuzz.token_set_ratio(S1、S2)は、比較のために考慮されません。
トップを識別するためにprocess.extract(S1、リスト、リミット= N)、Nリストのリストから、最も類似文S1を表します。
process.extractOne(S1、リスト)、最も類似を返す
。1
2
3
4
5
6
7
8
9
10
。11
(3)
fuzzywuzzyインポートファズから
A = 'ABのC'
B = 'ACB'
C = 'C'
fuzz.ratio(C)
>> 75
fuzz.ratio(B、C)
>> 60
fuzz.partial_ratio(C)
>> 67
fuzz.partial_ratio(B、C)
>> 100
fuzz.token_sort_ratio(、 C)
>> 75
fuzz.token_sort_ratio(B、C)
>> 75
fuzz.token_set_ratio(C)
>> 100
fuzz.token_set_ratio(B、C)
>> 100
---------------------