python2001のテキストエンコーディング

コーディング

情報のフォーマットを符号化又は、コンピュータプログラミング言語コードショートコードとして知られているプロセスの別の形態、1つの形式から変換されました。織ら所定の文字、数字または他のデジタルオブジェクトを使用して、または所定の電気パルス信号に情報データを変換する方法。コーディングは広く、コンピュータ、テレビ、リモコンとの通信で使用されています。情報のフォーマットを符号化またはプロセスの別の形態に一つの形式から変換されました。逆のプロセスを符号化、復号化。

1.ascii
ASCII((情報交換用米国標準コード):情報交換用米国標準コード)は、主に、現代英語や他の西ヨーロッパ言語を表示するために使用される符号化システムラテン語ベースのコンピュータ、です。それは情報の最も一般的な標準交換で、国際標準ISO / IEC 646に相当します。1967年に出版され、標準タイプを規制する初めてのASCIIは、それが1986年に更新された最後の時間は、これまでに128文字の合計を定義します。

ASCIIコード表
。8 UTF 2.
UTF-8(Weiyuan。8、ユニバーサル文字セット/ユニコード変換フォーマット ) Unicodeの可変長文字エンコーディングです。Unicode標準に任意の文字を表すために使用することができ、そしてその最初のバイトでのコーディングは変化の小さな部分なしまたはASCII文字のみで、元の契約後にソフトウェアを作る、まだASCIIと互換性があり、あなたが使用し続けることができます。したがって、それは徐々にエンコードされた電子メール、Webページや他の保存または送信されたテキストアプリケーション、優先順位の使用となっています。
U + 007F(ASCII)にUCS文字U + 0000バイトから0x7F(ASCIⅡ対応)に0×00としてエンコードされています。唯一のコードUTF-8ASCIⅡで7 ASCIl文字ファイルが含まれており、2。この手段は、同じ方法です。
0x007Fより全てのUCS文字大きく、バイト、複数の各バイトフラグセットの文字列として符号化されます。したがって、ASCIlバイト(0x00-0x7F)は、任意の他の文字の一部にすることはできません。最初のバイトは非ASCIlマルチバイト文字列を表しから0xfdの範囲0xC0の中で常にあり、この文字はバイト数が含まれていることを指摘しました。マルチバイト文字列の残りのバイトは0xbfの範囲の0x80からです。これは、非常に簡単に再同期することができ、そして国境なきコーディング、およびより少ないバイトの損失によって影響を受けます。
理論的にコードUTF-8文字が長い6つのバイトまでであり、ただし、16文字の最大値はビッグエンディアンUCS-4バイトシーケンスが予め決められているために、3バイト長BMPを用い、そして0xFEの中バイト0xFFのコーディングはUTF-8を使用することはありません。
UTF-8は、各文字符号化のための1〜4バイトである:
・米国-ASCIlのみの1バイト文字エンコーディング(U + 0000〜U + 007FのUnicodeの範囲) 。
・特殊記号ラテン語、ギリシャ語、キリル文字、アルメニア語、ヘブライ語、アラビア語、シリア語で他の文字は2つのバイトエンコーディング(U + 0080〜U + 07FFのUnicodeの範囲)が必要です。
・コーディング3バイトを使用して、最も一般的に使用される言葉が含まれています(CJK、東南アジアやテキスト、中東およびテキストを含む)その他の文字言語。
・他の言語はほとんどコーディング4バイトを使用して文字を使用していません。

  1. gb2314 GBK
    GBKコードがエンコードされるまで20,000以上の漢字へのすべてのモデルのGBコード拡張文字エンコーディングで、Win95のとWin98のの簡易版は、GBKシステムのコード内で使用するためのものです。
    ビューの実用化の観点から、マイクロソフトはWIN95簡体字中国語版を開始したので、システムはTrueTypeフォントのArial、(北京李エレクトロニクスの提供)のHelvetica二種類GBKフォントを含むGBKコードを使用して、表示および印刷するために使用され、提供することができます中国の文字入力方法GBKの4種類。また、ブラウザIE4.0簡体字と繁体字中国語内部版はGBK、BIG5コードは双方向変換で提供します。さらに、Microsoft IE用の言語パックは、サポート簡体字中国語(簡体字中国語言語サポートキット)二つのTimes New Romanフォント、太字、またGBK中国の文字(珠海ストーンコンピュータ組版システム開発会社)が得られました。他のいくつかの中国語フォントメーカーが提供するTrueTypeフォントまたはPostScript GBKフォントに始めています。
    多くのプラグインサザンクロス、Richwin(Richwin)として中国語プラットフォーム、文字、他の入力方法や中国語GBKコード変換器を含む支持GBKコードを提供します。
    インターネット接続には、多くのWebサイトは、GBKコードを使用しています。
    しかし、ほとんどの検索エンジンはよくGBK中国の文字検索でサポートされていない、検索エンジン本土いくつかの欠陥がGBK中国の文字検索をサポートすることができます。
    実際には、GBKは、1995年に制定された標準、フルネーム「中国の内部コード仕様」(中国Internatialコード仕様)をコードする別の漢字、です。GBの国家標準は、Kは漢字の「拡張」ピンインの最初の文字です。
    上方コーディング及びGB-2312、国際標準ISO 10646.1サポートGBK下位互換性が、前者は後者に標準Chaintechの遷移です。
    GBK仕様は、CJK文字とすべてのISO 10646.1のシンボルが含まれ、追加されます。具体的に含まれています:すべての文字、GB 2312の漢字で記号; GB 13000.1およびその他のCJK文字を。以上20902文字GBの合計、「簡略化された概要表」52は、収入GB 13000.1文字ではなく、「康」と「辞書」が28番目ラジカルおよびGB 13000.1重要なメンバーに組み込まれていない、性格13ブレーク; BIG-5ではないGB 2312年の所得ではなく、GB 139 13000.1でグラフィックシンボルがある; GB 12345を追加しました6発音記号; GB 12345 19個のが追加されました縦のグラフィカルシンボル(GB 12345 GB 2312は、より垂直に追加しましたGB 13000.1、またとても近くGBK収入ない10れた句読点行29)、31ギガバイト13000.1収益IBM OS / 2特殊記号、GB 13000.1は、CJK文字対応エリア21から選択されます。GBKもダブルバイトを使用し、0x8140全体的なコーディング範囲0xFEFEの間に、最初のバイト0x81と 0xFEの間、0X××7F線除く0x40の〜0xFEの間トレイルバイト、23940ヤード・ビットの総数、総収入21886文字や図形、前記文字(とを含む基材)21 003、グラフィックシンボル883。

  2. ユニコードユニコード
    ユニコードに、我々は、原点を見てする必要がありますが、それが生成するトレースします。
    東アジアにすると、コンピュータの普及、代わりに中国、日本、韓国およびその他の国の文字言語の表意文字の使用に会いました。元の文字が1バイト・コードを使用しながら、これらの国では、言語は一般的に、数千と同数の文字を使用し、コードページの文字のみが実際に言語使用表意文字のために、2 ^ 8 = 256まで収容します無力。バイトが十分ではありませんので、人々は自然に2バイト、ダブルバイトコード化文字セット(DBCS)の、したがって使用を使用します。しかし、ダブルバイト文字は、用途に2つのバイトをコードする表意文字を設定するものの、しかし、ASCIIコードとカタカナはまだシングルバイトで表さ、この方法は、プログラマがあるため、すべての、ない小さなトラブルをもたらしていませんそれはDBCS文字列が文字または文字の半分である表現のかを決定するために最終的には常にバイトに来るとき、半分の文字ならば、それは前半か後半のですか?したがって、DBCSは非常に良い解決策ではありません。
    人々は常により良い、この文字コード体系を探している、最終的な結果は、Unicode生まれています。Unicodeは、実際にはワイド文字セット、それは2バイト、すなわち、16ビットなので、文字は、半分だけ文字を扱うを心配する必要がプロセスを使用して固定されている各文字です。
    Unicodeは、ネットワーク、Windowsや多くの大規模なソフトウェアシステムに適用されて。

リリース7件のオリジナルの記事 ウォンの賞賛0 ビュー82

おすすめ

転載: blog.csdn.net/weixin_45359160/article/details/104287613