特性値算出情報データは、ハッシュダイジェストアルゴリズム爬虫類

特徴値を算出したいくつかの一般的な生データ

  • メッセージダイジェストハッシュアルゴリズム
  • simhashアルゴリズム
  • ブルームフィルタモード

導入されたメッセージダイジェストハッシュアルゴリズム

テキストは、任意の長さ、バイトデータ、アルゴリズムによって得られた固定長のテキストとすることができます。例えば、MD5(128ビット)、SHA1(160ビット)等の。

限り、ソーステキストは、計算の結果を用いて、同じではないように異なっていなければなりません。(要約)

情報の主な発生源は同じですが、通常のソースよりもはるかに小さいが、それは抽象呼び出すことができるかどうかを比較するために使用します。

Nはこのように、メッセージダイジェストアルゴリズムを使用して大幅に重い容器にストレージ使用量を減らすことができ、速度決意を増加させるために、及び、それらの一意の特性強力で、ほとんど偽陽性が存在しません。

それは本質的に等MD5 128はバイナリ16進32ビット長の長さを意味するハッシュアルゴリズムに由来する一連の値、の結果です。
進数は、4つのバイナリに等しいです。

使用するのは簡単

import hashlib

m5 = hashlib.md5()

m5.update("ruiyang".encode())

ret = m5.hexdigest()

print(ret)
# f4f122f0d6344f425134f6b6521e1108

# 将 16 进制转换为 10 进制
i = int("f", 16)
print(i)  # 15

# 将 10 进制转换为 2 进制
j = bin(i)
print(j)  # 0b1111 

メッセージの再プログラムに達成するためにハッシュアルゴリズムをダイジェスト

  • 通常のメモリ版
  • 永続的なバージョンをRedisの
  • 永続的なバージョンをのmysql

追伸

更新:2020年2月3日

公開された291元の記事 ウォンの賞賛104 ビュー410 000 +

おすすめ

転載: blog.csdn.net/Enjolras_fuu/article/details/104153694