Um reguläre Ausdrücke – das Schweizer Taschenmesser für ITler – geht es in der einhundertsechzigsten Episode des IT-Berufe-Podcasts.

Podcast: Play in new window | Download (Duration: 53:49 — 25.0MB)

Abonnieren: Apple Podcasts | Spotify | RSS

Inhalt

Ich schwärme immer mal wieder von regulären Ausdrücken. Das liegt wohl einfach daran, dass ich fast täglich mit ihnen arbeite. Sie sind einfach so unglaublich vielseitig verwendbar und machen ITlern das Leben leichter – wenn man sie beherrscht. Nicht umsonst gibt es diesen „Witz“:

Ich hatte ein Problem und versuchte es mit regulären Ausdrücken zu lösen. Nun habe ich zwei Probleme.

In den Händen eines erfahrenen Anwenders sind reguläre Ausdrücke allerdings äußerst hilfreich.

Sinn regulärer Ausdrücke

Reguläre Ausdrücke dienen der Mustererkennung in Zeichenketten und sind quasi Platzhalter on steroids. Statt der einfachen Platzhalter wie * oder ? z.B. in Dateinamen, gibt es viele verschiedene Platzhalter, Quantifizierer und weitere Regeln, um Muster in Texten zu definieren. Nach diesen Mustern kannst du suchen oder du kannst sie zum Ersetzen von Inhalten benutzen. Teilmuster lassen sich gruppieren und beim Ersetzen wiederverwenden. So gut wie jede Programmiersprache enthält eine eingebaute Unterstützung für reguläre Ausdrücke. Jeder vernünftige Texteditor unterstützt reguläre Ausdrücke beim Suchen und Ersetzen genauso wie eine gute Shell (z.B. Bash oder PowerShell).

Grundlegende Muster

konkreten Zeichen(-folgen): hallo
Bereiche: [], z.B. [a-z], [0-9], [aeiou]
- Negation mit ^, z.B. [^abc]
Zeilenanfang: ^ (nicht mit der Negation verwechseln!)
Zeilenende: $
Platzhalter für ein beliebiges Zeichen: .
Alternativen: A|B
Quantifizierer (stehen hinter dem Muster)
- einmal oder keinmal (0..1): ?
- keinmal, einmal oder mehrmals (0..n): *
- einmal oder mehrmals (1..n): +
- genaue Anzahl: {8}, {2,5} (2 bis 5 mal)
Gruppen: (), Referenz mit $1
Escapen von besonderen Zeichen (insb. alle obigen): \

Anwendungsfälle aus meiner Praxis

Reguläre Ausdrücke gehören in den Werkzeugkasten jedes ITlers! Egal ob Anwendungsentwicklung oder Systemadministration, reguläre Ausdrücke können vielfältig eingesetzt werden. In der Linux-Administration können z.B. Black- und Whitelists für Hostnamen mit regulären Ausdrücken definiert werden. Die Apache-Konfiguration verwendet ebenfalls reguläre Ausdrücke. Auf der Linux-Kommandozeile kannst du mit grep in Dateien nach regulären Ausdrücken suchen. sed ermöglicht dir die Massenverarbeitung von Dateien. Das Suchen und Ersetzen im vi wird standardmäßig auch mit regulären Ausdrücken gemacht und du kannst sogar mit ihnen navigieren ($ springt z.B. zum Ende der Zeile).

Suchen und Ersetzen in Dateien
Listen umformatieren
- Nachname/Vorname zu Vorname/Nachname
- Anfang oder Ende von Zeilen manipulieren
- Markdown in HTML und umgekehrt
- Feldnamen mit public String ; umschließen
- Batchdatei generieren zum Verschieben von Dateien
Whitespace trimmen
UUIDs/Domains/Mails in Text/Logs finden

Konkrete Beispiele

Gerade vor wenigen Tagen hatte ich die – eigentlich triviale – Aufgabe, ein paar Dateien umzubenennen, die ein bestimmtes Präfix hatten. Dieses Präfix sollte ausgetauscht werden. Anstatt die Dateien per Hand umzubenennen (oder die entsprechende Shell-Funktion zu nutzen 😉 ), habe ich mir mit einem simplen regulären Ausdruck in wenigen Sekunden ein Shell-Script gebaut, das die Aufgabe für mich löst.

Basis war die Liste der Dateien, die ich in der PowerShell mit dir | ac liste.ps1 erstellt habe.

prefix-Datei1.txt
prefix-Datei2.txt
...
prefix-Datei100.txt

Mit dem Suchen-/Ersetzen-Muster /^(prefix-(.*))$/move $1 neuerPrefix-$2/g im Vim wurde daraus:

move prefix-Datei1.txt neuerPrefix-Datei1.txt
move prefix-Datei2.txt neuerPrefix-Datei2.txt
...
move prefix-Datei100.txt neuerPrefix-Datei100.txt

Die Datei konnte ich dann einfach mit .\liste.ps1 ausführen und war fertig!

UUIDs suchen
- Text: Text mit UUIDs wie z.B. 550e8400-e29b-11d4-a716-446655440000 mittendrin
- RegEx: [a-f0-9]{8}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{4}-[a-f0-9]{12}
- Suchergebnis: 550e8400-e29b-11d4-a716-446655440000
E-Mail-Adressen suchen
- Text: Stefan Macke (mail@example.com) hat einen Podcast.
- RegEx: [a-z]+@[a-z]+\.[a-z]{2,3} (nicht ausreichend für echte Mails!)
- Suchergebnis: mail@example.com
Vor-/Nachnamen vertauschen
- Text: Stefan Macke
- RegEx: (.+) (.+)
- Ersetzen durch: $2, $1
- Ergebnis: Macke, Stefan
Trailing Whitespace entfernen
- Text: Zeile mit Leerzeichen am Ende
- RegEx: +$
- Ersetzen durch: „
- Ergebnis: Zeile mit Leerzeichen am Ende
Aus Zeilen Markdown-Aufzählungen machen
- Text: Listenpunkt 1
- RegEx: ^
- Ersetzen durch: * (Asterisk muss ggfs. escapet werden)
- Ergebnis: * Listenpunkt 1
Aus Namen Java-Attribute machen
- Text: alterDerPersonInJahren
- RegEx: (.+)
- Ersetzen durch: private Integer $1;
- Ergebnis: private Integer alterDerPersonInJahren;
Aus HTML-Links Markdown machen
- Text: <a href="https://it-berufe-podcast.de">IT-Berufe-Podcast</a>
- RegEx: <a href="([^"]+)">([^<]+)</a>
- Ersetzen durch: [$2]($1 "$2") (Klammern müssen ggfs. escapet werden)
- Ergebnis: [IT-Berufe-Podcast](https://it-berufe-podcast.de "IT-Berufe-Podcast")

Grenzen regulärer Ausdrücke

Wofür du reguläre Ausdrücke nicht benutzen solltest:

XML und HTML auseinandernehmen: Dafür brauchst du einen echten XML-Parser, da diese Sprachen zu „hoch“ für reguläre Ausdrücke sind.
Performance-kritische Aktionen: Reguläre Ausdrücke sind teuer im Vergleich zu „normalem“ Suchen und Ersetzen, da sie geparst und in einen Zustandsautomaten übersetzt werden müssen. Ein suboptimaler regulärer Ausdruck hat sogar schon einmal StackOverflow zum Absturz gebracht.

Programme mit Unterstützung für reguläre Ausdrücke

Kommandozeile: grep (Bash), Select-String (PowerShell)
Editoren: Vim, Notepad++, Visual Studio Code
IDEs: Eclipse, IntelliJ, Visual Studio

Und viele mehr…

Literaturempfehlungen

In diesem (zumindest für mich) spannenden Artikel zeigt Liz Bennett die – teils sehr deutlichen – Performance-Unterschiede zwischen guten und schlechten regulären Ausdrücken: Regexes: the Bad, the Better, and the Best.

In diesem tollen Artikel geht Nikita Popov auf die Hintergründe von regulären Ausdrücken ein und erklärt ganz nebenbei noch die Chomsky-Hierarchie und warum man HTML nicht mit regulären Ausdrücken parsen sollte: The true power of regular expressions. Ein wirklich spannender Artikel, der mir wieder mal zeigt, wie sinnvoll es ist, reguläre Ausdrücke zu beherrschen.

Eine witzige Möglichkeit, reguläre Ausdrücke zu lernen, ist übrigens das Regex Crossword. Damit habe ich auch schon einige Stunden verbracht! 😀

In Kapitel 10 (Konzepte der Programmierung) geht Sascha Kersken im IT-Handbuch für Fachinformatiker* auf reguläre Ausdrücke ein und zeigt Programmierbeispiele in Java und Python.

Cookie	Dauer	Beschreibung
cookielawinfo-checbox-analytics	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Analytics zu speichern.
cookielawinfo-checbox-functional	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Funktional zu speichern.
cookielawinfo-checkbox-necessary	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Notwendig zu speichern.
cookielawinfo-checkbox-others	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Andere zu speichern.
cookielawinfo-checkbox-performance	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Performance zu speichern.
viewed_cookie_policy	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen zu speichern. Er enthält keine persönlichen Daten.

Cookie	Dauer	Beschreibung
_ga	2 Jahre	_ga ist das wichtigste Google Analytics-Cookie. _ga ermöglicht es einem Dienst, einen Nutzer von anderen zu unterscheiden und ist 2 Jahre lang gültig. Es wird von jeder Website verwendet, auf der Google Analytics implementiert ist, einschließlich der Google-Dienste. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen.
_gid	24 Stunden	Dieses Cookie wird von Google Analytics verwendet, um Benutzer zu unterscheiden. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen.

Cookie	Dauer	Beschreibung
IDE	24 Monate	Der IDE-Cookie wird verwendet, um Google-Werbung auf Websites einzublenden, die nicht zu Google gehören. IDE bleibt im EWR, in der Schweiz und im Vereinigten Königreich 13 Monate gültig, überall sonst 24 Monate. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen. Die von Google angezeigte Werbung kann auf dieser Seite angepasst werden: Mein Anzeigen-Center.
NID	6 Monate	Dieses Cookie enthält eine eindeutige ID, über die Ihre bevorzugten Einstellungen und andere Informationen gespeichert werden, insbesondere Ihre bevorzugte Sprache, wie viele Suchergebnisse pro Seite angezeigt werden sollen (z. B. 10 oder 20) und ob der Google SafeSearch-Filter aktiviert sein soll. Jedes "NID"-Cookie läuft 6 Monate nach der letzten Nutzung ab. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen.
_gads	13 Monate	_gads-Cookies ermöglichen Websites, Werbung von Google anzuzeigen, einschließlich personalisierter Werbung. Cookies, die mit _gac_ beginnen, stammen von Google Analytics und werden von Werbetreibenden verwendet, um Nutzeraktivitäten und die Leistung ihrer Werbekampagnen zu messen. Ein _gads-Cookie ist 13 Monate lang gültig und ein _gac_-Cookie 90 Tage lang. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen. Die von Google angezeigte Werbung kann auf dieser Seite angepasst werden: Mein Anzeigen-Center.

Neueste Beiträge

Neueste Kommentare

Reguläre Ausdrücke – IT-Berufe-Podcast #160

Inhalt

Sinn regulärer Ausdrücke

Grundlegende Muster

Anwendungsfälle aus meiner Praxis

Konkrete Beispiele

Grenzen regulärer Ausdrücke

Programme mit Unterstützung für reguläre Ausdrücke

Literaturempfehlungen

Links

Stefan Macke

Polyglot Clean Code Developer

About the Author

2 comments on “Reguläre Ausdrücke – IT-Berufe-Podcast #160”

Schreibe einen Kommentar

Wer schreibt hier?

Suche

Newsletter

Produkte

Literaturempfehlungen

Unterstütze diese Seite

Werbung

Reguläre Ausdrücke – IT-Berufe-Podcast #160

Inhalt

Sinn regulärer Ausdrücke

Grundlegende Muster

Anwendungsfälle aus meiner Praxis

Konkrete Beispiele

Grenzen regulärer Ausdrücke

Programme mit Unterstützung für reguläre Ausdrücke

Literaturempfehlungen

Links

Stefan Macke

Polyglot Clean Code Developer

About the Author

2 comments on “Reguläre Ausdrücke – IT-Berufe-Podcast #160”

Schreibe einen Kommentar

Wer schreibt hier?

Suche

Newsletter

Produkte

Literaturempfehlungen

Unterstütze diese Seite

Werbung

Cookies