圧縮、重複排除技術の研究ノート


主に読書が悪いので、後でリコールを促進するために、ノートを取るために自分自身の学習プロセスのために
2020年休日新しい肺炎の流行時に、成都双流は
内容を読む:
1.本:Wujiaアン「データ圧縮技術とアプリケーション」
2.ペーパー:夏「冗長なデータを排除するための高性能なデータバックアップシステムにおける技術の研究。」

I.はじめに

データ圧縮の分類

ここでの1:冗長性の圧縮等エントロピー圧縮(ロスレス、非可逆)

圧縮性能指標

圧縮
 圧縮比:出力:入力
 圧縮率:入力:出力
 の圧縮効率
 圧縮ゲイン
 速度
:信号品質
 客観的尺度:SNR(SNR、DB)、平均二乗誤差(MSE)及び他の
 主観的メトリック

第二に、情報理論のデータ圧縮

離散記憶情報源に焦点を当てて
不確実性の高い(低い確率)、大きな情報量

定義情報

プレイ式あまりにも面倒で、以下は省略されている、とインデントは特に厄介で
定義された式情報:-log(確率の逆数)

相互の情報と自己の情報

相互情報式はわずかに
A及びBは、互いに独立して、相互情報の明らかに0である場合に
情報が情報自体からのものである場合、A Bは、相互情報の両方の情報から、決定します

エントロピ

式:から平均情報
エントロピー非負
決定論的イベントがゼロエントロピー
すべてのシンボルのソース出力確率、エントロピー最大値、ログ^ nは

ソースコーディング定理

 N個のシンボル出力一義的平均符号長が少ないソース符号化エントロピーよりも発現させることができるされているソースシンボルでは不可能である離散無記憶情報源、:
 H(X-)<= Lは、Lは、平均符号長であります

チャネル容量

チャネルを介して最大の情報量を伝送することができる
それに対応する入力相互情報と商、ビット/秒の和の出力時間T

チャネル符号化定理(シャノンの第2法則)

ソース情報は、レートRで送信される場合、チャネル容量Cは、R <Cあれば、音声チャネルエンコーダを用いて、デコーダは、エラーの任意に小さい確率、最高のCと、デジタル情報の伝送のレートにできるようになります 逆に、R> Cあれば、任意のエンコーダ・デコーダを使用して任意の小さなエラー確率よりも低い、ある値よりも大きくなければなりません

レート歪み理論

データ圧縮制限、最小平均相互情報を検索する条件付き確率

第三に、統計的なコーディング

3.1概要

可変長符号

のみ翻訳可能の
インスタント翻訳可能
可変長符号の符号語インスタント一意に復号可能条件:異なる接頭

ベスト可変長の符号化定理

逆の順序で符号語長と確率

3.2シャノン - コーディングファーノ

  1. 確率に従って降順にシンボル
  2. シンボルセットの二組は、第0、1に第1の実質的に等しい確率(最小差)に分割され、
  3. 各シンボルになるまで繰り返しステップ2は、葉に分割されています

3.3ハフマン符号化

我々はすべて知っているように:バイナリのボトムアップ工事
平均符号長ハフマン符号化は:葉を除くすべてのノードの確率は、平均符号長の合計ノード
とシャノン-ファノコーディングの比較を

  1. 確率は2のべき乗でない場合、より高いハフマン、シャノン符号化に比べ、効率陰性である - ログ^ pが整数でない場合、ソース符号化定理は、平均符号長をエントロピーよりも大きいとは整数(コーディングファノを以下、100%の効率よりも、シャノン - ファノ符号化は、非最適な符号化を生成することができます)
  2. 両者の負のパワーの確率の両方が、両方の符号化効率である場合、100%(ログ^ pは整数であり、コードの長さは平均エントロピーに等しいです)

適応符号化ハフマン

両方が動的に各符号化(復号化)文字ツリーを調整しなければならない、ハフマンツリーを調整する、文字頻度は動的であるため、エンコーダおよびデコーダは、一貫した、同期させます。第1のエンコーダ(周波数現在の文字+ 1)の周波数を変化させるエンコーダは次いで、復号器は、最初のコードとハフマン木を用いて復号が同じであることを確実にするために、周波数変化を復号します。

3.4ランレングス符号化

またとして知られている「ランレングス符号化。」
固定長ランレングス符号化構造:X、S、RL
、前記Xキャラクタ; Sは、データセット内の文字ではないが、異なるヘッダの役割を果たし、RLは、Xの数が表示され、すなわちストローク長を表します。
可視RL> 3は、圧縮効果を持っています。
可変長符号化は、フラグ情報のストロークを大きくする必要がある符号化の開始と終了を示します。

可変長符号化された信頼性

上述した伝送誤りに可変長符号化の3種類が存在する脆弱性、工程によって間違った間違ったステップ、および知らずデコーダです。特定のランレングス符号化では、間違った場所いったん全体の旅行の変位につながります。各溶液のいくつかを指すことができる交換の信頼性の圧縮比と、パリティ符号等を付加されます。

3.5算術符号化

私はそのようなアルゴリズムを提案することができ、本当に巧妙なアルゴリズム、:)

コーディング理論

初期割り振り[0,1)は、ソースの確率に応じた出力文字は固有の間隔になるように、各文字の対応する分割します。符号化する際に、各時間間隔は、文字列の最後のセクションは、符号化されている与えるために、それを繰り返し、現在の文字コードワードに割り当てられます。反復コードワードは、同じ範囲の終わりになるまで、コードワードがどの文字区間に属する表示、デコード時には、反復が続きます。すなわち:
 高(N-+ 1)低=(N-+ 1)+ X high_range範囲(X)
 低(N + 1)低=(N + 1)+ X low_range範囲(X)
請求範囲=高い(N ) -ロー(n)は、高い 、low_range(x)は文字xの上限と下限間隔現在の確率のために。
実際には、唯一のコードワードは、下限として保存することができます。
この図は、冒頭で言及した本から来て

算術符号化とシフト動作

**一知半解,此处存疑。**目的是为了简化算术编码过程中的乘法运算,从而提高速度。疑惑的点在于:移位的位数为何是动态的,是怎么决定的?

自适应算术编码

与自适应霍夫曼编码相似,动态调整每个字符的概率。用一棵平衡二叉树来保存字符的频数来提高效率。

四、字典编码

4.1 基本原理

  1. 静态字典:需要预设字典项,对一些专用的场景比较适合,比如源程序代码等等。但当字典查找成功率低到某一个阈值时,就会出现反扩张的现象。
  2. 自适应字典:从一个空或小字典开始,从输入流读到新字就输出新字并加入字典,并且删除旧字。删除旧字是因为大字典搜索速度太慢。如此便形成了一个循环:读入并解析成短语,在字典中查找,找到就输出码字,否则加入字典并输出原字,最后检查看是否需要删除一个旧字。这样做的好处是:只有字符串操作无数值运算;译码简单。译码过程,与编码一样从动态调整字典,只要规则一样,最后的解压结果便也是一样的,并且不需要解析输入数据,不需要匹配字符串,只需要查找索引,简单高效,是不对称的。

4.2 LZ77

分两个区域,左边的缓冲区为当前的字典,右边的滑动窗口为即将要压缩的字符。原理见下图:
ここに画像を挿入説明
声明:上面这张图是来自另一篇博客:https://blog.csdn.net/qq_23084801/article/details/77496955,我看的这本书没图,纯文字,无力吐槽。
若从右往左搜索缓冲区没有匹配到字符串,则输出(0,0,当前字符),这就是必须要有第三部分的原因。一般在压缩器刚开始工作时,(0,0,)很容易出现。
LZ77也是非对称压缩技术,解压简单,因此多应用于一次压缩多次解压的场合。

4.3 LZ78

:以下のように圧縮原理
ここに画像を挿入説明
ここに画像を挿入説明
辞書を抽出するときに動的に復元され、次の伝説:
ここに画像を挿入説明//www.cnblogs.com/en-heng/p/6283282.html:免責事項:三つのマップはブログからです:httpsの
異なるLZ77、LZ78のと辞書は、辞書のエントリを削除しません。LZ78辞書は、ツリー構造を使用して格納され、このような8ビット文字などのマルチツリー、各ノードは2 ^ 8子ノードまで有することができます。それは辞書のエントリを削除していないので、回収空間、簡素化経営に関与していないと、ストレージスペースの文字列を検索しないため。しかし、木の大きさは、容量が不足し、その結果、急速に拡大することがあります。

4.4 LZW

LZ78は、バージョンを改善すること。それはすべて1文字の辞書に事前にプリインストールされていますので、次の入力文字が常に見つけることができるので、主な違いは、それはLZ78 2番目のフィールドを削除していることです。プロセスの残りは、復号処理とコードが同じであり、明らかにプッシュすることが容易になります。
LZW辞書構造は明らかに複数のツリーで、不要な子ノードポインタスペースを低減するために本は、LZWマルチツリー構造は、アレイで使用される事前に割り当てられた親ノードポインタに格納されていると述べました。子ノードを見つけるために、親ノードのハッシュマップを使用する方法。私はZstdがここに間違いが最適化されていると思います。

疑点

  1. レート歪み定理
  2. 算術符号化とシフト動作
  3. LZSS LZ77、Googleのスナッピーに基づいて、LZW LZ78に基づいて、FacebookのZstd(ベースFSE)

継続するには...

公開された10元の記事 ウォンの賞賛0 ビュー443

おすすめ

転載: blog.csdn.net/dc199706/article/details/104210676