A causa de lixo gerado

Codificação e decodificação

Codificando - o carácter é convertido para uma sequência binária correspondendo a
uma descodificação - o inverso da codificação de acordo com as regras de codificação para converter os caracteres numa sequência binária

Por que precisamos para codificar e decodificar

Primeiro um pequeno exemplo, você está vendo este artigo é composto de uma palavra, o texto na memória do computador na forma de sequências binárias lá. Converte a seqüência binária em uma memória essas palavras nós visíveis aos olhos humanos, o símbolo Inglês processo de decodificação é, ao contrário de converter o conteúdo do artigo em uma memória visível é chamado de uma sequência binária de codificação da informação.

processo detalhado: Quando você clica no link, a partir do servidor de banco de dados CSDN, preparar as informações neste artigo é lido na memória, como CSDN formato de codificação do banco de dados é UTF-8, então ele precisa estar no disco UTF 8 codificação (sequência binária) é convertido em uma sequência binária de Unicode (Unicode codificado utilizando memória unificada), e armazenados na memória. O servidor irá Unicode codificado seqüência binária de memória lida, convertida em seqüência binária UTF-8 codificado enviado para o cliente, juntamente com o navegador web, as decodificações navegador cliente codificados no formato UTF-8 se tornou nosso texto visível. Se o navegador cliente para decodificar outro formato será truncado. (É claro que também pode converter Unicode codificado no servidor codificação de outros formatos)
Aqui Insert Picture Descrição
significa existência codec é fazer Inglês texto ou símbolos que usamos um valor binário exclusivo armazenado no computador, e não em conjunto com outros símbolos ou caracteres confusão .

Inúmeras razões que codificam formato

O computador é uma invenção americana, portanto, apenas o primeiro 127 caracteres são codificados no computador, que é o caso letras, números e alguns símbolos, a tabela de codificação é chamado de código ASCII, como codificação de letra maiúscula A é 65, z código de letras minúsculas é 122. Mas, para lidar com os chineses é, obviamente, um byte não é suficiente, você precisa de pelo menos dois bytes, e ASCII codificação e não pode conflito, por isso, a China desenvolveu GB2312 codificação, usado para compilar em chinês. Você pode pensar é que existem centenas de idiomas ao redor do mundo, resultando em uma grande variedade de codificação de formatos, Japão alocado para os japoneses nos Shift_JIS, o sul-coreano coreano alocados aos anos EUC-KR, isso também trouxe problemas - ilegível .

A razão para ilegível

Quando a descodificação e que codificam formatos (utilizados pela regra) não é a mesma, ele vai ser ilegível. Por exemplo, eu estava UTF-8 formato de codificação (sequência binária), o cliente tem de descodificar a regra GBK descodificação, então não irá ser ilegível.

cordas de memória unificada usando codificação Unicode, então porque não são uniformes em todo o mundo usam Unicode para codificar decodificá-lo?
Para reduzir a sobrecarga de armazenamento e transmissão, descrito em detalhe abaixo.

Unicode relacionamento, UTF-8, código Ascll

Ascll uso código somente um byte, dois bytes e geralmente Unicode (palavra remoto usando quatro bytes).
Se unificados em codificação Unicode, o problema do lixo desaparecer. No entanto, se você escrever essencialmente todo o texto está em Inglês, em seguida, usar codificação Unicode do que a codificação ASCII requer o dobro do espaço de armazenamento no armazenamento e transporte vai ser muito útil. Por isso, em seguida, transmitidas e armazenadas por conversão codificado em comprimento fixo Unicode UTF-8 de codificação de comprimento variável.

UTF-8 codificado de acordo com caractere de Unicode para um tamanho diferente das figuras 1-6 codificados em bytes, as letras vulgarmente utilizadas são codificadas em um caracteres byte tipicamente 3 bytes, apenas uma rara carácter será codificados em bytes 4-6. Se você deseja transferir o texto contém uma grande quantidade de caracteres em inglês, use codificação UTF-8 será capaz de economizar espaço. ASCII codificação e pode realmente ser visto como parte de codificação UTF-8, portanto, apenas suporta ASCII codifica um grande número de software legado pode continuar a operar em codificação UTF-8.

Publicado 14 artigos originais · ganhou elogios 3 · Vistas 1474

Acho que você gosta

Origin blog.csdn.net/qq_41008202/article/details/104817672
Recomendado
Clasificación