컴퓨터 코드에 관한 연구

미국 정보 :이 코드에 관해서, 컴퓨터 과학은 확실히 그 기호는 우리의 키보드에 있었다, 그의 공식 이름이 불리는 것을 고려 될 수있다 128 자 (문자)를 나타내는 7 비트를 사용하여 인코딩 규칙의 집합은 ASCII를 알고 아스키, 미국!

그는 또한 테이블의 코드 값들의 세트, 즉 그러한 X110 0001 문자를 나타내는 "A"로 간주 될 수 있으며,

그러나, 영어, 일본어, 한국어의 문제는, 중국과 우리의 깊은에 가정, 그래서 그는 더 코딩 규칙 태어났다

A, 유니 코드

이 코드 값 테이블, 그는 세상의 모든 상징적 인 시스템을 수집하고, 모두가 포함 음절, 신비 기호, 단지 나에게 문자를주고, 내가 룩업 테이블 해요, 그는 얼마나 많은 포인트입니다 해당 코드를 알고 있었다?

그러나 규칙 그의 전체 세트의 체크하도록 직접 할 수없는 규격에 대응하므로 대응하는 부호화가 문자 코드 점수 UTF-16 / UTF-32 .....

무엇 구체적으로 어떻게하는지, 또는 코딩 규칙이라고 하는가?

1, 개념 소개

문자 / 기호 / 코드 포인트 : 'A'는, '1'... 문자 / 기호 / 코드 포인트이며, 1010 있도록 컴퓨터에 의해 기호를 인코딩하기 위해, 무작위로 동영상 심볼 / 코드 포인트입니다 그룹 01은 디지털 코드 포인트 인

유니 코드 / UTF-32 / UCS-4 ... 유니 코드는이 코드 값 테이블, UTF-32 인코딩 규칙 등이 어떤 코드 규칙 생성하는 표현이다 - 대응 값

 

2 인코딩 규칙

각 심볼은, 코드 포인트에 할당되고, 즉, 변수 룬 유형

 

1) UTF-8

다음으로이 규칙은 구체적으로 1-4Byte하여 유니 코드 코드 포인트를 표시하는 문자를 나타내는 코드 포인트로서 0101의 가변 길이 시퀀스, 말하자면

(1) 문자 원래 ASCII 문자 집합에 속하는 하나 또는 바이트

(2) 일반적으로 사용되는 문자가 3 바이트 또는 2에 표시됩니다,

(3) 기타

?은 그 끝이 문자 그것을 몇 바이트로 구성된다 같은 접두사로서 예약이 높은 비트의 첫 번째 바이트 :

0xxxxxxx와 : 첫 번째 문자는 다음 1 바이트 코드 포인트 하나 야드 나타내는, 0이면 0 ~ 127,이 ASCII 문자 코드 포인트의 표현입니다

110xxxxx에 10xxxxxx에 : 128-2047, 첫 문자 (110)는 하나의 코드 포인트를 나타내는 2 바이트를 설명한다 경우

1110xxxx와 10xxxxxx에 10xxxxxx에 : 2048-65535, 첫 번째 문자는 다음 3 바이트 하나 개 야드 지점을 나타내는 것을 나타내는, 1110 인 경우

11110xxxx 10xxxxxx에 10xxxxxx에 10xxxxxx에 : 65536-, 첫 번째 문자가 나타내는 11110 인 경우 하나 야드 지점을 나타내는 다음 4 바이트

 

3. 코딩이 방법의 장점

컴팩트, 여분의 저장 공간을 차지하며 ASCII 문자 세트와 호환되지 않습니다

이 왼쪽에서 오른쪽으로 디코딩되는 경우, 접두사 코드에 속하는, 다음 확실히 모호함이 없을 것

디코딩이 오른쪽에서 왼쪽 인 경우 다시 다중 바이트 개의 백은 2 바이트 전달하지 프리픽스 네번째 바이트에 있더라도 때문에 최대 4 바이트 (현재의 문자 코드의 시작 위치를 결정할 수있다 다음, 나는이었다 알고 4 바이트, 다음 앞으로 머리가)

 

4, 응용 프로그램 시나리오

GO 언어 소스 파일은 UTF-8로 인코딩되며, GO 언어 라이브러리 함수는 UTF-8 텍스트 인코딩도 매우 좋다 처리 할 수 ​​있습니다.

유니 패키지 유니 / UTF8에 UTF8 패키지 룬 문자의 부호화 및 복호 처리 순서하는 기능을 제공하는, 문자 처리 기능 룬, 관련된 다양한 기능을 제공한다

- "언어 성경을 GO,"말했다

 

물 악마 :? 당신이 그런 의심이 경우 어떻게하면 우리가 컴파일러 이론에 대한 여기에 약간의 말을해야 의미합니까 "UTF8 인코딩을 사용하여 언어 소스 파일을 이동"몰라

                XXXXXX 참조, 링크 개념을 컴파일, 조립, 그가 수행 010101를이되어야, 언어 또는 다른 언어로 작성된 소스 코드, 기계가 모르는 이동, 그래서 우리는 공통의 사전 컴파일을

                따라서, 이러한 다른 balala 문 이진 010101로 변환되는 경우, 소스 코드에서의 규칙에 따라 변환 UTF-8

 

2) UTF-16

.....

3) UTF-32

....

 

------------------ 미완성 계속 ---------------------------- ----- 

추천

출처www.cnblogs.com/shuiguizi/p/11372985.html