Uma explicação da codificação de caracteres Unicode

Para que um computador possa armazenar texto e números que os humanos possam entender, é necessário haver um código que transforme personagens em números. O padrão Unicode define esse código usando a codificação de caracteres.

A razão pela qual a codificação de caracteres é tão importante é que todos os dispositivos podem exibir as mesmas informações. Um esquema de codificação de caracteres personalizado pode funcionar de maneira brilhante em um computador, mas ocorrerão problemas quando você enviar o mesmo texto para outra pessoa. Ele não saberá do que está falando, a menos que compreenda também o esquema de codificação.

Codificação de caracteres

Tudo o que a codificação de caracteres faz é atribuir um número a cada caractere que pode ser usado. Você pode criar uma codificação de caracteres agora.

Por exemplo, eu poderia dizer que a carta UMA torna-se o número 13, a = 14, 1 = 33, # = 123 e assim por diante.

É aí que entram os padrões de toda a indústria. Se toda a indústria de computadores usar o mesmo esquema de codificação de caracteres, todo computador poderá exibir os mesmos caracteres.

instagram viewer

O que é Unicode?

ASCII (Código Padrão Americano para Intercâmbio de Informações) tornou-se o primeiro esquema de codificação generalizado. No entanto, é limitado a apenas 128 definições de caracteres. Isso é bom para os caracteres, números e pontuação em inglês mais comuns, mas é um pouco limitante para o resto do mundo.

Naturalmente, o resto do mundo também quer o mesmo esquema de codificação para seus personagens. No entanto, por um pouco, dependendo de onde você estava, pode haver um caractere diferente exibido para o mesmo código ASCII.

No final, as outras partes do mundo começaram a criar seus próprios esquemas de codificação, e as coisas começaram a ficar um pouco confusas. Não eram apenas os esquemas de codificação de diferentes comprimentos, os programas precisavam descobrir qual esquema de codificação eles deveriam usar.

Tornou-se evidente que era necessário um novo esquema de codificação de caracteres, quando o padrão Unicode foi criado. O objetivo do Unicode é unificar todos os diferentes esquemas de codificação para que a confusão entre computadores possa ser limitada o máximo possível.

Atualmente, o padrão Unicode define valores para mais de 128.000 caracteres e pode ser visto no Consórcio Unicode. Possui várias formas de codificação de caracteres:

UTF-8: Usa apenas um byte (8 bits) para codificar caracteres em inglês. Pode usar uma sequência de bytes para codificar outros caracteres. O UTF-8 é amplamente utilizado em sistemas de email e na internet.
UTF-16: Usa dois bytes (16 bits) para codificar os caracteres mais usados. Se necessário, os caracteres adicionais podem ser representados por um par de números de 16 bits.
UTF-32: Usa quatro bytes (32 bits) para codificar os caracteres. Ficou aparente que, à medida que o padrão Unicode crescia, um número de 16 bits é muito pequeno para representar todos os caracteres. UTF-32 é capaz de representar cada caractere Unicode como um número.

Nota: UTF significa Unidade de Transformação Unicode.

Pontos de código

Um ponto de código é o valor que um caractere é fornecido no padrão Unicode. Os valores de acordo com Unicode são escritos como números hexadecimais e têm um prefixo de U +.

Por exemplo, para codificar os caracteres que examinamos anteriormente:

UMA é U + 0041
uma é U + 0061
1 é U + 0031
# é U + 0023

Esses pontos de código são divididos em 17 seções diferentes chamadas aviões, identificadas pelos números de 0 a 16. Cada plano possui 65.536 pontos de código. O primeiro plano, 0, contém os caracteres mais usados e é conhecido como Plano Multilíngue Básico (BMP).

Unidades de código

Os esquemas de codificação são compostos de unidades de código, que são usadas para fornecer um índice para onde um caractere está posicionado em um plano.

Considere UTF-16 como um exemplo. Cada número de 16 bits é uma unidade de código. As unidades de código podem ser transformadas em pontos de código. Por exemplo, o símbolo de nota plana ♭ possui um ponto de código de U + 1D160 e vive no segundo plano do padrão Unicode (Plano Ideográfico Suplementar). Seria codificado usando a combinação das unidades de código de 16 bits U + D834 e U + DD60.

Para o BMP, os valores dos pontos de código e unidades de código são idênticos. Isso permite um atalho para UTF-16 que economiza muito espaço de armazenamento. Ele só precisa usar um número de 16 bits para representar esses caracteres.

Como o Java usa Unicode?

Java foi criado na época em que o padrão Unicode tinha valores definidos para um conjunto muito menor de caracteres. Naquela época, acreditava-se que 16 bits seria mais que suficiente para codificar todos os caracteres que seriam necessários. Com isso em mente, o Java foi projetado para usar o UTF-16. O tipo de dados char foi originalmente usado para representar um ponto de código Unicode de 16 bits.

Desde o Java SE v5.0, o char representa uma unidade de código. Faz pouca diferença para representar caracteres que estão no plano multilíngue básico, porque o valor da unidade de código é o mesmo que o ponto de código. No entanto, isso significa que, para os personagens dos outros planos, são necessários dois caracteres.

O importante é lembrar que um único tipo de dado char não pode mais representar todos os caracteres Unicode.