詳細なコーディングソフトウェア開発

序文 
私が思うには、ソフトウェア開発者のために、「コードが」でも、私たちはコードを書く過程で「定期的に連絡を」と言って、コンセプトに確かには見知らぬ人ではない、「コーディングの問題は、」私たちは無力や頭痛プログラマです。

「コーディングの問題は」解決することは困難ではありませんが、原則は、私は多くのプログラマがもっともらしいことを信じて、私たちはこの問題を上に見て、次の。

コンピュータコード 
、コンピュータコードは、文字や数字のコンピュータの内部データに代わって記録モードを指します。

なぜそこにコード化されましたか?私たちは、保存された電子部品によってコンピュータから、知っている、と理由は、産業技術の限界のため、電子部品は数字だけで表され、「オフ」、「オン」に二つの安定状態を記録することができ、aは0です。これは、本質的に、コンピュータは2つだけの数字0と1を記録することができます。我々は「ビット、コンピュータの最小単位を呼び出すそれぞれ0又は1、。これは、我々はバイナリの数字を呼び出すだけの数字0と1、です。

しかし、明らかに、我々は進がある、唯一の2桁はデジタルビットを表すためにその3一緒に行うことはありませんので、多くのことを記録する必要があります。単一の数字を表すために一緒に4ビット、六角があります。

デジタル問題は、あなたが文字「」保存したい場合は、しかし、解決されたが、それは、コンピュータで実行することはできません。すべての通常の文字は、そのような私たちは「『」、ときに直接格納しない格納する必要がある場合ように』の数は、97であるとして背番号、ある置く:この問題を解決するために、人々は解決策が欲しかったですA「」が、97のうちデジタルストレージ97、その後はとなるので、この問題への完璧なソリューション。

そして、我々は通常、「コード」と呼ぶこれらの文字の数です。

すべての文字とその数は、私たちが呼ぶ形式に対応し、「コード表。」

共通符号化テーブル:ASCIIコーディング、GB2312エンコーディング(簡体字中国語)、GBK、BIG5エンコーディング(繁体字中国語)、UTF-8エンコーディングなど

ASCIIコード化:
など「西欧世界」で人気の創造の初めに、コンピュータ、または「英語圏」、オープンビュー、西洋世界の言語、テキストは、最高の状態で、にも関わらず、26個の文字に加えて、いくつかのシンボルである英語サブ小文字、決して128よりも、1バイトで表される各文字は、十分です。ASCIIエンコーディング:このエンコーディングの文字を表現するためにバイトを使用して、早いです。

注1:バイトの基本単位は、組成物の8ビットで構成され、範囲を表し:-128···127

注2:負のコーディングありません

注3:ASCII中国語をサポートしていません。

 

 

 

GBKコード:
その後、コンピューターの普及で、全世界が確かにASCIIコーディングない(ローマ字以外の文字を格納することはできません)、および所定のバイトのASCIIエンコードされた表現を使用した場合、データを保存するためにコンピュータを使用する必要がありますこの規定の文字は明らかに(漢字は千少なくとも数バーを持っている)、全世界に適用することはできません。したがって、ASCII符号化のすべての国が、文字を表現するために、元の1バイトから拡大し、文字を表現するために、複数のバイトに変換します。

例えば、中国、GB2312、GBK 2つの符号化フォーマットは、2バイト文字を表すために使用されます。もちろん、2つのバイトが大で表現することができ、ほぼすべての漢字を含めることができます。

注意:いいえどのようなエンコーディングが、0〜127の最初の範囲内の文字とASCIIエンコーディングがまったく同じで表現されています。

UTF-8エンコーディング:
もちろん、世界には、独自のコードを使用し、国家と国との交流は、ここであなたを持っているでしょうとして多くのトラブルは、呪いを解析し、異なるためエンコーディングのため、他の側どこに、意味へのオマージュであることを場合つまり、それはしないだろう。したがって、ユニコードコンソーシアムと呼ばれる組織によって、この問題を解決するために、コーディング-unicode符号化規則のセットを開発しました。この規則は、世界の言語の650種類以上をサポートしています。世界的な文字のルールです。

UTF-8は、このルールで導入された国際的な符号化テーブルです。

UTF-8は中国のエンコーディングをサポートし、国際的な符号化テーブルです。符号表に中国語は、一般的に3つのバイトを占め

注1:Unicodeエンコーディングは、コード表ではなく、符号化規則。UTF-8符号化テーブルであり、UTF-8は、このような規則に従って符号表のうち指定されています

注2:UTF-8中国語では、3つのすべてのバイトは、一般的に3つのバイトを占め、いくつかの特別な、非常にまれな単語が6つのバイトを占めることができるではありません。

 

問題のコーディング:
開発、いわゆる「コーディングの問題」を、実際には、中国の文字化けの登場です。なぜ、このような問題があるのでしょうか?

中国のオペレーティングシステムのデフォルトのエンコード形式はGBKである一方、我々中国の人々は一般的に、中国のオペレーティングシステムを使用しています。世界では、一般的な使用UTF-8エンコーディングを理解することができるようにするために、国際。(国際拠点通常はUTF-8エンコーディング)

GBKエンコーディングは、文字は一般的に2つのバイトを占有します。

UTF-8エンコーディングは、文字は、一般的に3つのバイトを占めています。

 

あなたがいる場合:UTF-8 - > GBK

 

 

 

 

それがある場合:GBK - > UTF-8

 

 

コーディングの問題を解決:
「コードの問題は、」我々は文字に解決されている他の人以外の何ものでもありません間違って使用するエンコーディングとき、あなたはUTF-8を取得する場合、我々は取得する場合は、分析の使用に、GBK GBKですそれはUTF-8に解析を使用することですので、それを解決していませんか?

あなたは中国の文字化け文字列を経験しているのであれば、表示されます:

壊れ1.中国の歪み書き換え文字列は、バイトになります。

2. Stringコンストラクタ列(バイト[]バイト、文字列たcharsetName)組換えストリング。

 

たとえば、次のようにUTF-8の分析

 

 

注意:中国の文字化けので、我々は時間のブロック、間違った場所で遊ぶに似バイト、組み立てミス、に解決が、バイトの性質を変更していない場合のみです。

おすすめ

転載: blog.51cto.com/14473726/2440994