各種語系的unicode對應以及local編碼方式(zz)

種語系的unicode對應以及local編碼方式(zz)

 

另:或参见:

http://jrgraphix.net/research/unicode_blocks.php?block=87

 

另:在unicode里,\u0800-\u9FFF为中、韩、日字符。其中,中文的范围:\u4e00-\u9fa5,日文在\u0800-\u4e00,韩文为\u9fa5以上。

 

.英文

Unicode範圍: 0041-005A, 0061-007A (若含則為0021-007E)

locale編碼: ANSI

 

1. ANSI

HTML charset: us-ascii

RTF charset: 0

編碼方式: 41-5A, 61-7A (若含則為21-7E)

 

 

.中文

Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF

備註F900-FAFF的相容型中文字應轉至一般的中文字碼處理,31A0-31BF則為注音符

 

locale編碼: 中文有BIG5, CNS, 簡體中文GB

 

1.BIG5

HTML charset: big5

RTF charset: 136

編碼方式: byte, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE

備註big5+目前人使用,故省略不提

2.CNS

HTML charset: (應為euc-twiso-2022-cn, IE不支援)

RTF charset:

編碼方式: byte

byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FE

byte 18E, 4 byte編碼, byte 2範圍為A1-B0, byte 3byte 4範圍A1-FE

 

備註: 4 byte編碼時, byte 2A12 byte編碼之字相同 (即第1字面), CNS目前只使用了7字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字, 都已入前7字面

 

3.GB

HTML charset: gb2312, gbk, euc-cn

RTF charset: 134

編碼方式: byte, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE

 

.日文

Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字

備註FF00-FFEF有半形日文,應轉至一般日文字碼處

 

locale編碼: Shift-JIS, EUC-JP

 

1.Shift-JIS

HTML charset: shift_jis, x-sjis, iso-2022-jp

RTF charset: 128

編碼方式: /byte

byte 1範圍為A1-DF時為1 byte編碼

byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC

2.EUC-JP

HTML charset: euc-jp, x-euc-jp

RTF charset:

編碼方式: byte

byte 18E, 2 byte編碼, byte 2範圍為A1-DF

byte 1範圍為A1-FE, 2 byte編碼, byte 2範圍為A1-FE

byte 18F時為3 byte編碼, byte 2byte 3範圍A1-FE

 

備註: IE不支援3 byte編碼部份

 

.

Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字

備註FF00-FFEF有半形文,應轉至一般文字碼處

 

locale編碼: Johab, EUC-KR

 

1.Johab

HTML charset: johab

RTF charset: 130

編碼方式: byte

byte 1範圍為84-D3, byte 2範圍為41-7E, 81-FE

byte 1範圍為D8-DE, E0-FE, byte 2範圍為31-7E, 91-FE

2.EUC-KR

HTML charset: euc-kr, iso-2022-kr

RTF charset: 129

編碼方式: byte, byte 1範圍為A1-FE, byte 2範圍為A1-FE

 

.阿拉伯文

Unicode範圍: 0600-06FF, 0750-077F

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1256

RTF charset: 178

 

編碼方式: 1 byte

 

.泰文

Unicode範圍: 0E00-0E7F

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-874

RTF charset: 222

編碼方式: 1 byte

 

.俄文

Unicode範圍: 0400-052F (西里)

 

locale編碼: Windows, ISO, KOI8-U, KOI8-R

 

1.Windows

HTML charset: windows-1251

RTF charset: 204

編碼方式: 1 byte

2.ISO

HTML charset: iso-8859-5

RTF charset:

編碼方式: 1 byte

3.KOI8-U

HTML charset: koi8-u

RTF charset:

編碼方式: 1 byte

4.KOI8-R

HTML charset: koi8-r

RTF charset:

編碼方式: 1 byte

 

.德文/法文

Unicode範圍: 00C0-00FF(混用英文字母)

備註:字母上面有2德文, 字母上面有重音符法文

 

locale編碼: ANSI

 

1.ANSI

HTML charset: iso-8859-1, windows-1252

RTF charset: 0

編碼方式: 1 byte

 

.印尼文/馬來西

Unicode範圍: 同英文, 拼音

locale編碼: 同英文

 

.其他

,土耳其文,希伯,拉丁,越南文等尚在研究中...

 

.歐語

Unicode範圍(拉丁文): 00C0-02AF, 1E00-1EFF(混用英文)

 

locale編碼: Windows, ISO

 

1.Windows

HTML charset: windows-1250

RTF charset: 238

編碼方式: 1 byte

2.ISO

HTML charset: iso-8859-2

RTF charset:

編碼方式: 1 byte

 

十一.

Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFF

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1253, iso8859-7 (後者IE不支援)

RTF charset: 161

編碼方式: 1 byte

 

十二.希伯

Unicode範圍: 0590-05FF

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1255, iso8859-8 (後者IE不支援)

RTF charset: 177

編碼方式: 1 byte

 

十三.土耳其文

Unicode範圍: 同拉丁文(混用英文)

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1254, iso8859-9 (後者IE不支援)

RTF charset: 162

編碼方式: 1 byte

猜你喜欢

转载自summerbell.iteye.com/blog/1632673
今日推荐