Unicode

#Uso em Word Wide Web | #Exemplos | #Download

Unicode é um padrão que permite aos computadores representar e manipular, de forma consistente, texto de qualquer sistema de escrita existente. Publicado no livro The Unicode Standard, o padrão consiste de pouco mais de 109 mil caracteres, um conjunto de diagramas de códigos para referência visual, uma metodologia para codificação e um conjunto de codificações padrões de caracteres, uma enumeração de propriedades de caracteres como caixa alta e caixa baixa, um conjunto de arquivos de computador com dados de referência, além de regras para normalização, decomposição, ordenação alfabética e renderização.

Atualmente, é promovido e desenvolvido pela Unicode Consortium, uma organização sem fins lucrativos que coordena o padrão, e que possui o objetivo de um dia substituir esquemas de codificação de caractere existentes pelo Unicode e pelos esquemas padronizados de transformação Unicode (chamado Unicode Transformation Format, ou UTF). Seu desenvolvimento é feito em conjunto com a Organização Internacional para Padronização (ISO) e compartilha o repertório de caracteres com o ISO/IEC 10646: o Conjunto Universal de Caracteres (UCS). Ambos funcionam equivalentemente como codificadores de caracteres, mas o padrão Unicode fornece muito mais informação para implementadores, cobrindo em detalhes tópicos como ordenação alfabética e visualização.

Seu sucesso em unificar conjuntos de caracteres levou a um uso amplo e predominante na internacionalização e localização de programas de computador. O padrão foi implementado em várias tecnologias recentes, incluindo XML, Java e sistemas operacionais modernos.

Uso em Word Wide Web:

Os navegadores já suportam diversas sub-codificações UTF há vários anos, especialmente UTF-8. Os problemas de visualização derivam principalmente de questões relacionadas a fontes tipográficas. Num caso particular, o Internet Explorer não imprime na tela diversos códigos Unicode exceto quando é indicado explicitamente qual a fonte que contém os símbolos.

Todas as recomendações W3C (a organização que padroniza a WWW) usam o Unicode como o conjunto de caracteres de documentos desde o HTML 4.0, sem um método de mapeamento específico; anteriormente utilizava-se o conjunto ASCII 6-bit ISO-8859-1.

Apesar de regras sintáticas poderem afetar a ordem em que os caracteres podem aparecer, por definição tanto documentos HTML quanto XML (incluindo o XHTML) suportam caracteres da maioria dos códigos Unicode, exceto pela maioria dos códigos de controle C0 e C1, o bloco de código D800-DFFF e qualquer código que termine em FFFE ou FFFF.

Os caracteres são armazenados em XML e HTML na forma binária do código Unicode (desde que a codificação em uso suporte o código). Alternativamente, pode-se armazená-los como referências numéricas baseadas no seu respectivo código, seguindo o formato &#valor; (no qual "valor" é o código em notação decimal) ou &#xvalor; (código em notação hexadecimal; note o "x" antes do valor);

Por exemplo, as referências Δ, Й, ק, م, ๗, あ, 叶, 葉 e 냻 são visualizadas nos navegadores respectivamente como Δ, Й, ק, م, ๗, あ, 叶, 葉 e 냻. Se as fontes apropriadas existem, tais símbolos aparecem respectivamente como a letra maiúscula grega "delta", a letra maiúscula cirílica "I curta", a letra árabe "Meem", a letra hebraica "Qof", o numeral tailandês 7, o hiragana japonês "A", a letra do chinês simplificado "folha", a letra do chinês tradicional "folha" e a sílaba hangul "Nyaelh".

Outro formato para representar caracteres Unicode são as entidades de caractere, um texto que "apelida" um determinado código do padrão. Por exemplo, —, assim como — ou —, representa o código U+2014, o caractere "—".

Em requisições HTTP, as URL são codificadas obrigatoriamente usando o prefixo "%", geralmente em UTF-8 para representar Unicode.

Exemplos:

Caracteres do alfabeto oriá:

Alfabeto oriá

Caracteres do sistema de escrita tifinagh:

Para mais informações acesse: https://pt.wikipedia.org/wiki/Unicode

Download Unicode 6.0

  • Nome do arquivo: Unicode 6.0
  • Formato: .pdf
  • Quantidade de caracteres: aproximadamente 110 mil
  • Proteção do PDF: desprotegido
  • Servidor: MediaFire
  • Tamanho: 75 MB

Download Unicode 6.0