Zeichensalat
Mojibake (文字化け, ausgesprochen /modʑibake/) ist der Name für falsche, unlesbare Zeichen, die angezeigt werden, wenn Computersoftware den Text nicht korrekt anzeigt. Bei der Verwendung von Computern wird Text mit einer Zeichenkodierung kodiert. Bei der Übertragung wird jedes Zeichen durch seine Position (oder Zahl) in der Kodierung ersetzt. Um das Zeichen wieder anzuzeigen, wird die Position wieder durch das Zeichen ersetzt. Wenn die ursprüngliche Kodierung nicht angegeben ist, kann ein anderes Zeichen verwendet werden, wenn die Zahl wieder durch das Zeichen für die Anzeige ersetzt wird. Zur Lösung dieses Problems wurde Unicode eingeführt: UTF-8 ist in der Lage, die gängigsten Zeichen in 2 Bytes zu kodieren.
Vor der Einführung von Unicode wurden andere Zeichenkodierungen verwendet. Als Beispiel enthält ISO-8859 15 verschiedene Kodierungen. Diese sind die gleichen für die im Englischen gebräuchlichen Zeichen. Sie haben mehrere "Blöcke" von "Sonderzeichen", die für jede Kodierung unterschiedlich abgelegt sind.
So kann eine Website aussehen, wenn die falsche Schriftkodierung verwendet wird.
Der japanische Wikipedia-Artikel für Mojibake verwendet die UTF-8-Kodierung. Dieser Screenshot zeigt, wie er aussieht, wenn er mit der Standard-CP1252-Encodierung von Windows dekodiert wird.
Herkunft des Wortes
Mojibake ist ein japanisches Wort. Das Wort 文字化け ([moʥibake]) setzt sich aus zwei Teilen zusammen. 文字 (moji) bedeutet Buchstabe, Zeichen. 化け (backen), aus dem Verb 化ける (bakeru), bedeutet verkleidet erscheinen, die Form von annehmen, sich zum Schlechten verändern. Wörtlich bedeutet es "Zeichenmutation".
Fragen und Antworten
F: Was ist "Mojibake"?
A: Mojibake ist der Begriff für fehlerhafte und unlesbare Zeichen, die erscheinen, wenn Computersoftware Text nicht korrekt anzeigt.
F: Wie wird Text bei der Verwendung von Computern kodiert?
A: Text wird mit einer Zeichenkodierung kodiert, wobei jedes Zeichen durch seine Position oder Nummer in der Kodierung ersetzt wird.
F: Was passiert, wenn die ursprüngliche Kodierung bei der Übertragung von Text nicht angegeben wird?
A: Wenn die ursprüngliche Kodierung nicht angegeben ist, kann ein anderes Zeichen verwendet werden, wenn die Nummer durch das Zeichen für die Anzeige ersetzt wird.
F: Was ist Unicode und wie löst es dieses Problem?
A: Unicode ist ein Zeichencodierungsstandard, der die meisten Zeichen in zwei Bytes darstellen kann. Er löst das Problem der Verwendung unterschiedlicher Zeichenkodierungen und stellt sicher, dass die Zeichen korrekt dargestellt werden.
F: Was sind einige Beispiele für andere Zeichenkodierungen, die vor Unicode verwendet wurden?
A: ISO-8859 ist ein Beispiel für eine andere Zeichenkodierung, die vor Unicode verwendet wurde.
F: Wie viele verschiedene Kodierungen enthält ISO-8859?
A: ISO-8859 enthält 15 verschiedene Kodierungen.
F: Sind die Sonderzeichen in ISO-8859 für alle Kodierungen gleich?
A: Nein, die Sonderzeichen in ISO-8859 sind für jede Kodierung anders abgelegt.