La Codifica dei caratteri è un metodo di conversione di byte in caratteri. Per convalidare o visualizzare correttamente un documento HTML, un programma deve scegliere una corretta codifica dei caratteri.
Il set di caratteri più comune, utilizzato per impostare o codificare i caratteri nei computer è l' ASCII The American Standard Code for Information Interchange, che è probabilmente il più utilizzato per impostare la codifica dei testi elettronici.
La codifica ASCII supporta solo le lettere maiuscole e minuscole dell'alfabeto latino , i numeri 0-9, e alcuni altri caratteri, per un totale di 128 caratteri. Si può dare uno sguardo al set completo qui Codici ASCII
Tuttavia, in molte lingue vengono utilizzati entrambi i caratteri Latini accentati o alfabeti completamente diversi. ASCII non gestisce questi caratteri; Pertanto se si desidera utilizzare caratteri non ASCII è necessario imparare la codifica dei caratteri.
L'International Standards Organization ha creato una serie di set di caratteri per essere utilizzati con i diversi caratteri nazionali. Per i documenti in Inglese e per la maggior parte delle altre lingue dell'Europa occidentale, viene utilizzata la codifica (ampiamente supportata) ISO-8859-1.Ecco l'elenco dei set di caratteri in uso in tutto il mondo e la loro descrizione.
Character Set | Descrizione |
---|---|
ISO-8859-1 | Alfabeto Latino parte 1 Utilizzato per Nord America, Europa Occidentale , America Latina, Caraibi, Canada, Africa |
ISO-8859-2 | Alfabeto Latino parte 2 Utilizzato per Europa Orientale |
ISO-8859-3 | Alfabeto Latino parte 3 Utilizzato per SE Europa, Esperanto, varie altre |
ISO-8859-4 | Alfabeto Latino parte 4 Utilizzato per Scandinavia/Baltiche (ed altre non presenti in ISO-8859-1) |
ISO-8859-5 | Alfabeto Latino/Cirillico parte 5 |
ISO-8859-6 | Alfabeto Latino/Arabico parte 6 |
ISO-8859-7 | Alfabeto Latino/Greek parte 7 |
ISO-8859-8 | Alfabeto Latino/Ebreo parte 8 |
ISO-8859-9 | Alfabeto Latino 5 parte 9 Uguale a ISO-8859-1 eccetto per i caratteri Turki rimpiazzati con quelli Islandesi |
ISO-8859-10 | Latino 6 Latin 6 Lappone, Nordico, and Eschimese |
ISO-8859-15 | Uguale a ISO-8859-1 ma con l'aggiunta di molti caratteri |
ISO-2022-JP | Alfabeto Latino/Giapponese parte 1 |
ISO-2022-JP-2 | Alfabeto Latin/Giapponese parte 2 |
ISO-2022-KR | Alfabeto Latino/Koreano parte 1 |
In seguito è stato istituito l' Unicode Consortium per escogitare un modo per mostrare tutti i caratteri, piuttosto che avere diversi codici di caratteri incompatibili per le lingue diverse.
Pertanto, se si desidera creare documenti che utilizzano caratteri da più set di caratteri, si potrà utilizzare le singole codifiche di caratteri Unicode.
Unicode specifica quindi delle codifiche che possono trattare le stringhe in modo da rendere lo spazio per il set di caratteri sufficiente per numero enorme di caratteri che essa comprende. Questi sono noti come UTF-8, UTF-16 e UTF-32.
Character Set | Descrizione |
---|---|
UTF-8 | Un Unicode Translation Format che è formato da soli 8-bit, si misura in bytes. Un carattere in UTF8 può essere lunga da 1 a 4 bytes, formando un UTF8. |
UTF-16 | Un Unicode Translation Format che è formato da 16-bit, si misura in shorts. Può essere lungo 1 o 2 short, formando un UTF16. |
UTF-32 | Un Unicode Translation Format che è formato da 32-bit, si misura in longs. È sempre formato da 1 longs. |
I primi 256 caratteri del set Unicode corrispondono ai 256 caratteri di ISO-8859-1.
Di default, il preprocessore di HTML dovrebbero supportare UTF-8, e tutti i processori XML si suppone che supportino UTF8 e UTF16, quindi tutti i processori XHTML devono supportare UTF16.