- Zeichensätze und -kodierung – Anwendungsentwickler-Podcast #32
- HTML – Anwendungsentwickler-Podcast #33
- Java (Lernzielkontrolle) – Anwendungsentwickler-Podcast #36
- Allgemeine Fragen zur Programmierung (Lernzielkontrolle) – Anwendungsentwickler-Podcast #37
- Variablen und Operatoren (Lernzielkontrolle) – Anwendungsentwickler-Podcast #38
- Zahlen und Zeichen (Lernzielkontrolle) – Anwendungsentwickler-Podcast #39
- Algorithmen und Methoden (Lernzielkontrolle) – Anwendungsentwickler-Podcast #42
- Objektorientierung Teil 1 (Lernzielkontrolle) – Anwendungsentwickler-Podcast #43
- Objektorientierung Teil 2 (Lernzielkontrolle) – Anwendungsentwickler-Podcast #44
- Datenbankmodellierung (Lernzielkontrolle zum Entity-Relationship-Modell) – Anwendungsentwickler-Podcast #48
- Datenbankmodellierung (Lernzielkontrolle zum relationalen Tabellenmodell) – Anwendungsentwickler-Podcast #49
- Java EE 7 (Lernzielkontrolle) – Anwendungsentwickler-Podcast #54
- Fehlerbehandlung (Lernzielkontrolle zu Exceptions) – Anwendungsentwickler-Podcast #79
- Arrays und Listen (Lernzielkontrolle) – Anwendungsentwickler-Podcast #99
In der zweiunddreißigsten Episode des Anwendungsentwickler-Podcasts gehe ich einige Fragen aus meiner Lernzielkontrolle zum Thema Zeichensätze und -kodierung durch.
Podcast: Play in new window | Download (Duration: 27:09 — 12.2MB)
Abonnieren: Apple Podcasts | Spotify | RSS
Inhalt
- Zeichensatz vs. Zeichencodierung
- ASCII: 7 Bit, lateinische Buchstaben, Zahlen usw.
- Wichtige Sonderzeichen: Line Feed (
\n
, Position 10), Carriage Return (\r
, Position 13)- Windows-Zeilenumbrüche:
\r\n
, Linux:\n
- Windows-Zeilenumbrüche:
- zusätzliches Bit -> ISO 8859
- ANSI vs. ASCII
- Unicode vs. UTF-8
- Häufige Fehler
- Sonderzeichen werden als Fragezeichen dargestellt: Text ist in ISO 8859 codiert, wird aber als UTF-8 interpretiert
- Sonderzeichen werden als zwei andere Zeichen dargestellt: Text ist in UTF-8 codiert, wird aber als ISO 8859 interpretiert
Literaturempfehlungen
- *
(direkt beim Rheinwerk-Verlag bestellen*) - Das passende Kapitel im OpenBook: 16 Weitere Datei- und Datenformate – Rheinwerk Computing :: IT-Handbuch für Fachinformatiker
Links
- Permalink zu dieser Podcast-Episode
- RSS-Feed des Podcasts
- Zeichensatz – Wikipedia
- Zeichenkodierung – Wikipedia
- American National Standards Institute – Wikipedia
- American Standard Code for Information Interchange – Wikipedia
- ISO 8859 – Wikipedia
- ISO 8859-1 – Wikipedia
- UTF-8 – Wikipedia
- The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Unicode and Character Sets (No Excuses!) – Joel on Software
- Character Encodings For Modern Programmers
- Eine ausführliche Betrachtung der Historie von Zeichensätzen: RFCE013: ASCII
Bei dem Thema fehlt der Link auf die offizielle Unicode-Seite.
Ist es zu aufwendig, vor dem Podcast mal schnell in BabelMap oder online nachzuschauen, welches Zeichen welchem Codepoint enspricht? (200: Dezimal È, Hexadezimal Ȁ; ü: Dezimal 252, Hexadezimal 00FC, Ü: Dezimal 220, Hexadezimal 00FC) Das Fragezeichen steht für Zeichen, die nicht im Zeichensatz vorhanden sind oder nicht druckbar sind (z. B. die Control-Zeichen am Anfang von ASCII). Das 2. Byte wird auch als Codepunkt interpretiert, genauso wie das erste, wenn das Programm die 2-Byte-Kodierung nicht erkennt.
Danke für die Ergänzungen!