Die Zeichenkodierung ist ein Verfahren zur Umwandlung von Bytes zu Charaktere. Um zu validieren, oder zeigen Sie ein HTML-Dokument richtig, muss ein Programm eine richtige Zeichenkodierung zu wählen.
Die häufigste Zeichensatz oder Zeichencodierung im Einsatz auf Computern ist ASCII Die American Standard Code for Information Interchange , und das ist wahrscheinlich die am häufigsten verwendete charakter sets für Codierung Text elektronisch.
ASCII-Codierung unterstützt Nur die Groß-und Klein lateinischen Alphabets, die Zahlen 0-9 und einige zusätzliche Zeichen, die insgesamt 128 Zeichen in alle zu machen. Sie können einen Blick auf kompletten Satz haben aufdruckbaren ASCII-Zeichen
jedoch Viele Sprachen verwenden entweder akzentuierte Buchstaben oder völlig unterschiedliche Alphabete. ASCII tut nicht diese Adresse Zeichen ; daher müssen Sie über Zeichenkodierungen lernen, wenn Sie keine Nicht-ASCII-Zeichen verwenden möchten.
Die International Standards Organization erstellt eine Reihe von Zeichensätzen mit unterschiedlichen nationalen Zeichen umzugehen. Für die Dokumente in Englisch und die meisten anderen westeuropäischen Sprachen,wird der breiten Unterstützung für Kodierung ISO-8859-1 verwendet.
Hier wird die Liste der charaktersatz ist auf der ganzen Welt zusammen mit ihrer Beschreibung verwendet.
Charakter Set | Beschreibung |
---|---|
ISO-8859-1 | lateinische Alphabet Teil 1 Abdeckung Nordamerika, Westeuropa, Lateinamerika, theCaribbean, Kanada, Afrika |
ISO-8859-2 | lateinische Alphabet Teil 2 Abdecken Osteuropa |
ISO-8859-3 | lateinische Alphabet Teil 3 Abdecken SE Europa, Esperanto, verschiedene andere |
ISO-8859-4 | lateinische Alphabet Teil 4 Abdecken Skandinavien / Baltikum (und andere nicht in ISO-8859-1) |
ISO-8859-5 | Latin / kyrillische Alphabet Teil 5 |
ISO-8859-6 | Latin / arabische Alphabet Teil 6 |
ISO-8859-7 | Latin / griechische Alphabet Teil 7 |
ISO-8859-8 | Latin / hebräische Alphabet Teil 8 |
ISO-8859-9 | Latin 5 Alphabet Teil 9 Elbe wie ISO-8859-1 außer türkischen Zeichen ersetzen diejenigen isländischen |
ISO-8859-10 | Latin 6 Latin 6 lappländische, Nordic und Eskimo |
ISO-8859-15 | Das gleiche wie ISO-8859-1, aber mit mehr Zeichen hinzugefügt |
ISO-2022-JP | Latin / japanische Alphabet Teil 1 |
ISO-2022-JP-2 | Latin / japanische Alphabet Teil 2 |
ISO-2022-KR | Latin / koreanische Alphabet Teil 1 |
Die Unicode-Konsortium wurde dann set zu ersinnen einen Weg show auf um alle Zeichen von verschiedenen Sprachen , anstatt diese verschiedenen inkompatiblen Zeichencodes für verschiedene Sprachen zu entwickeln .
Deshalb, wenn Sie die schaffen Dokumente Zeichen aus mehrere Zeichensätze verwenden möchten, sind Sie in der Lage, dies zu tun, mit den Single Unicode-Zeichenkodierungen.
Unicode daher gibt an Kodierungen die mit einem string in besonderer Weise umgehen können, um genug Platz zu machen für die große Charakter set es umgreift. Diese werden als UTF-8, UTF-16 und UTF-32 bekannt.
Charakter Set | Beschreibung |
---|---|
UTF-8 | Ein Unicode Translation Format, die in 8-Bit-Einheiten, die in Bytes wird kommt es kommt. Ein Zeichen in UTF8 kann von 1 bis 4 Byte lang sein, so dass Making UTF8 variabler Breite. |
UTF-16 | Ein Unicode Translation Format, die in 16-Bit-Einheiten, die, kurz gesagt wird, stammt es kommt. Es kann 1 oder 2 shorts lang sein, so dass Making UTF16 variabler Breite. |
UTF-32 | Ein Unicode Translation Format, die in 32-Bit-Einheiten, die in Long-Positionen wird kommt es kommt. Es ist eine feste Breite-Format und ist immer ein "long" in der Länge. |
Die ersten 256 Zeichen des Unicode-Zeichensätze entsprechen den 256 Zeichen des ISO-8859-1.
Standardmäßig sollte HTML 4 Prozessoren UTF-8 unterstützt und XML-Prozessoren sollen unterstützt UTF-8 und UTF-16; daher alle XHTML-konformen Prozessoren sollten auch UTF-16.