エンコード:
アスキー:初期のコンピュータは文字(1バイト)8ビット= 1バイト(8ビットバイナリコンピュータを格納する8ビットのASCIIエンコーディングを使用し、英語ですべての特殊文字が含まれている
ことしかでき、01010100、 8つのデジタルストレージ)
など:H ...... 01011011 ... 1バイト、2 ** 8 = 256個の可能性がある
ユニコード:ユニコード、利点:現時点では、すべての言語を認識することができますが、唯一の早期アスキーを解決英語は、32の合計を、問題を特定することができ、2つの** 32個の可能性、短所:,スペースは、
大容量メモリ消費
UTF-8を:メモリ容量を節約、8つのプレースホルダで、Unicodeの基礎を圧縮します(中国の3バイト)で
のように:H ..... - - - - - - - - - -01011011、 空白領域の前に保存することができます
GBKを:中国語と英語(中国語で2バイト)を認識
」 」」
1. 3つのコア・ハードウェアは、プログラムを実行する
CPUと
メモリ
ハード
前フェッチを実行するハード・ディスク・メモリ、CPU及びメモリをロードするために必要なため、プログラム動作、
メモリ内で実行中のアプリケーション最初に生成されなければならないにデータを
2.pythonをファイルを実行するにはPYインタプリタ(xxx.py)ステップ
1.ハードディスクメモリから読み出さPythonインタプリタコード
メモリ2は、通常のテキストファイルを読み込むxxx.py
ファイル内容認識文法を読ん3.pythonは、Pythonを行いました適切なアクション
PS:普通のテキストエディタとPythonインタプリタの前に2つのステップは同じです
「」「
#文字エンコーディング
」「」
テキストの文字エンコーディング
ここでは考慮される必要があり、ビデオ、オーディオファイルやその他の文書をファイル意味しますそれは?それは必要としない
だけで、関連すると文字エンコーディングのテキストファイルを
2しているテキストエディタの入力と出力の
コンピュータが人々の文字を読み取ることができたとき、人々は運転に入る
が、コンピュータが唯一の010101、そのようなバイナリデータを認識して
文字入力を>>>(文字コード表)>>>バイナリデジタル
文字コード表は、文字と数字との対応関係である
0
B. 1
00
B 01
Cで11
D 10
ASCIIコード表は
、すべて英語の文字は、最大で約125 +記号英語ビットのバイナリ文字で表現される
0000 0000
1111 1111
GBK
2バイトでは表現し1Bytesと漢字や英語の文字を表す
0,000,000,000,000,000
1,111,111,111,111,111を65,535文字まで表現することができる
上記の導出に基づくと、独自の言語をサポートするためのコンピュータを取得するにはどの国ステップ文字と数字との対応関係を作成する必要があり
、日本のシフト
韓国ファック
ユニコードユニコード
2バイトと団結のすべての文字を表す
0000 000000101010
1消耗ストレージ空間
(致命的な)プロセスの効率を低下させる周波数2.io減少し、
UTF-8でエンコードされた後に続く場合、ハードディスク、メモリに記憶されているUnicodeエンコーディングフォーマットデータ
ユニコード変換フォーマット
意志英語ユニコードオリジナルの2バイトが1Bytesになるから、文字
の元2バイトが3バイトになるから漢字をUNICODEになる
現在のコンピュータの
メモリがUnicodeである
ハード-8は、UTFしている
(知っている必要があります)
Unicodeの二つの特徴
1.ユーザー入力時間、どんな文字入力は、文字のすべての国との互換性がありません
メモリUnicodeエンコード種々の他の国が対応関係を有する場合、ハードディスクから読み出し2.その他の国コードデータ
(*****)
ハードディスクに記憶することによって記憶されるデータ
メモリ1 >>>のUnicodeバイナリデジタルフォーマット>バイナリデータを符号化(エンコード)>>>>> UTF-8フォーマット
読み取るためのハードディスク・メモリ内のハードディスクからデータを
ハードディスク内のバイナリデータを1 UTF-8フォーマット>>>>>復号(デコード)>>> >>バイナリデータのUnicode形式でメモリ
(******)が
何文字化けしていることを確認し
たテキストファイルをコンパイルしないためにどのようなコーディングソリューションにどのようなエンコーディング
python2
テキストファイルに従い、PYファイルがインタプリタデフォルトのASCIIコードに読み込まれます( )python2インタプリタはUnicodeを開発するには流行がため
のpython3ない
テキストファイルに従い、PYファイルをインタプリタのデフォルトのUTF-8に読み込まれ
たヘッダ
#コーディング:UTF-8
1.すべてのエンコーディングをサポート英語文字なぜなら、ファイルをヘッドが正しく有効取ることができるように
、すべての前に、中国の限り、ベースのソフトウェアPythonインタプリタの開発をU字追加する必要があり
ますが、そのファイルのヘッダを指定する場合は、ファイルヘッダ、ASCIIストアのデフォルトデータを指定しないとき(python2を話しているの順序をプレス フォーマット・ファイル・ヘッダを符号化データ)を格納する
バイナリ文字列のpython3することが既定のエンコーディング・フォーマット・ユニコードは、
追加されました:
UTF-8形式使用1.pycharm端末
2.windows端子GBKを使用します
文字化け:文字が正しく矛盾コーディング表示されない
ビットのバイナリも呼ばれる8ビット(******)
8ビット= 1bytes
1024バイト= 1キロバイト
1024キロバイト= 1メガバイト
1024メガバイト= 1ギガバイト
1024ギガバイト= 1TB
1024TB = 1PBを
....
X = 'オン'
のバイナリデータをUTF-8の記憶及び送信に符号化されたRES1のx.encode =( 'GBK')#ユニコード
印刷(RES1)#1 B '\ XE4 \ XB8 \ x8a'
#バイトタイプBYTEあなたがバイナリデータの列の型としてそれを置く
RES2 = res1.decode(「GBK」) #ハードUTF-8形式のバイナリデータは、バイナリデータのUnicode形式にデコード
プリント(RES2)