Normalisierung einer Datenbank am konkreten Beispiel

Wir gehen ein komplettes Beispiel zur Normalisierung einer relationalen Datenbank durch in der einhundertvierundvierzigsten Episode des Anwendungsentwickler-Podcasts.

Podcast: Play in new window | Download (Duration: 1:01:52 — 28.8MB)

Abonnieren: Apple Podcasts | Spotify | RSS

Inhalt

Theoretische Grundlagen

Wir normalisieren Datenbanken um Redundanzen zu vermeiden, die zu Anomalien führen können. Mehr dazu in Podcast-Episode 18.
Grundlagen wie Schlüssel, Kardinalitäten usw. erkläre ich in Podcast-Episode 17.
Merksatz: „The key, the whole key, and nothing but the key.“

Beispieldaten

Wir verwenden ein „klassisches“ Beispiel, das so oder ähnlich in vielen IHK-Prüfungen genutzt wird.

Umfeld: Kunden bestellen Artikel aus verschiedenen Artikelgruppen.
Ein Kunde kann mehrere Bestellungen durchführen. Eine Bestellung wird immer von genau einem Kunden getätigt.
Zu den Kunden werden Name und Adresse erfasst.
Jede Bestellung hat ein Bestelldatum.
In einer Bestellung können mehrere Artikel enthalten sein. Ein Artikel kann auch in mehreren Bestellungen auftauchen.
Artikel haben eine Bezeichnung und einen Preis.
Ein Artikel kann zu genau einer Artikelgruppe gehören. Eine Artikelgruppe kann mehrere Artikel enthalten.
Artikelgruppen haben eine Bezeichnung und einen Rabatt.

Ausgangssituation (nicht normalisiert)

Alle Bestellungen stehen in einer einzelnen Tabelle. Jede Bestellung steht komplett inkl. mehrerer Artikel in einer Zeile. Die Adresse steht komplett in einem einzigen Attribut.
Beispiele für Probleme: Viele Redundanzen (z.B. Adressen, Artikelbezeichnungen), Sortierung nach Ort ist nicht möglich, Selektion aller gekaufter Fernseher ist nicht möglich.

Nicht normalisierte Tabelle mit Kunden, Bestellungen und Artikeln

1. Normalform

Definition: Es gibt 1) nur atomare Attribute und 2) keine Wiederholungsgruppen.
„the key“: Alle Datensätze sind eindeutig über einen Primärschlüssel identifizierbar.
Durch 2) werden Redundanzen zunächst eingeführt, da aus einer Zeile nun mehrere Zeilen mit redundanten Inhalten werden.
Vorgehen: Nicht-atomare Attribute auf mehrere Spalten aufteilen. Wiederholungsgruppen auf mehrere Zeilen aufteilen.
Ein Datensatz ist über einen zusammengesetzten Schlüssel aus drei Attributen identifizierbar.
Redundanzen: Kunden-, Bestell- und Artikeldaten sind jeweils mehrfach vorhanden.
Ursache: Tabelle enthält drei Konzepte (Kunde, Bestellung, Artikel), die alle nur von Teilen des Schlüssels abhängen und nicht vom gesamten.

Tabelle mit Kunden, Bestellungen und Artikeln in 1. Normalform

2. Normalform

Definition: (1. Normalform erfüllt und) alle Attribute sind voll funktional vom Primärschlüssel abhängig.
„the whole key“: Alle Attribute hängen vom gesamten Schlüssel ab (und nicht nur von seinen Teilen).
Vorgehen: Alle drei Konzepte auf einzelne Tabellen aufteilen. Fremdschlüssel für Referenzen einführen. Zuordnungstabelle Position mit zusammengesetztem Schlüssel aus Fremdschlüsseln einführen.
m:n-Beziehungen werden aufgelöst.
Menge gehört an die Kombination aus Bestellung und Artikel und weder an das eine noch das andere allein.
Redundanzen: Artikelgruppe und Rabatt gehören zusammen und sind mehrfach vorhanden.
Ursache: Rabatt hängt von Artikelgruppe ab und nicht von der Artikelnummer (=transitive Abhängigkeit).

Tabellen mit Kunden, Bestellungen und Artikeln in 2. Normalform

3. Normalform

Definition: (2. Normalform erfüllt und) es gibt keine transitiven Abhängigkeiten.
„and nothing but the key“: Kein Nicht-Schlüssel-Attribut hängt von einem anderen Nicht-Schlüssel-Attribut ab.
Vorgehen: Artikelgruppe in eigene Tabelle extrahieren und Fremdschlüssel für Referenz einführen.
1:n-Beziehungen werden aufgelöst.

Tabellen mit Kunden, Bestellungen, Artikeln und Artikelgruppen in 3. Normalform

Ergebnis

Jede Tabelle enthält genau ein Konzept.
Keine Daten sind mehr redundant.
In jeder Tabelle gibt es einen eindeutigen Primärschlüssel.
Fremdschlüssel werden für Referenzen auf Datensätze in anderen Tabellen verwendet.

Literaturempfehlungen

Zum Einstieg ins Thema Datenbanken inkl. Modellierung, Normalisierung und SQL empfehle ich Einstieg in SQL* von Michael Laube.

Links

Normalisierung 1. Ausbildungsjahr 3. Ausbildungsjahr 2. Ausbildungsjahr Relationale Datenbanken Fachgespräch Datenbanken

Stefan Macke

Polyglot Clean Code Developer

About the Author

Ausbildungsleiter für Fachinformatiker Anwendungsentwicklung und Systemintegration, IHK-Prüfer und Hochschuldozent für Programmierung und Software-Engineering.

13 comments on “Normalisierung einer Datenbank am konkreten Beispiel – Anwendungsentwickler-Podcast #144”

Reza sagt:

15. Oktober 2019 um 23:55:39 Uhr

Hi
Wollte ich gerne als PDF habe ist das möglich?
Stefan Macke sagt:

17. Oktober 2019 um 9:44:20 Uhr

Was möchtest du als PDF haben?
Matthias sagt:

18. Dezember 2019 um 17:54:48 Uhr

Danke für die Erklärung, Stefan! 🙂
Jonathan sagt:

25. Januar 2021 um 14:40:10 Uhr

Hallo Stefan

Danke für die schöne Aufteilung und Beschreibung von der 0. Normalform auf die 3. Normalform.
Was mich allerdings stört ist die Spalte Rabatt, der an den PK Artikelgruppe gekoppelt ist, also hat man automatisch 10% Rabatt, wenn man einen Artikel aus der Artikelgruppe Elektronik bzw. Peripherie bestellt?
Würde es da Sinn machen eine neue Tabelle Rabatt einzuführen?

Außerdem könnten auch bestimme Kunden (Mitarbeiter, Unternehmen) Rabatte bekommen?

Beste Grüße
Jonathan
Stefan Macke sagt:

28. Januar 2021 um 21:11:57 Uhr

Hallo Jonathan, je nach Datenmodell kann es sinnvoll sein, deine Ergänzungen durchzuführen. Aber das Beispiel ist natürlich einfach gewählt, um die Grundlagen zu erklären. Allerdings wäre eine Tabelle Rabatt wohl unsinnig, denn was soll darin stehen? Rabatt-ID 1, Rabatt-Satz 10%. Welche Felder sind hier sonst noch sinnvoll? Du kannst auch einfach die 10 als Wert für Rabatt in die Tabellen eintragen.
Diaa sagt:

11. Juni 2021 um 9:32:44 Uhr

Hello Stefen,

vielen lieben Dank für Ihre Mühe und die sehr gute Materialen.
Hiere habe ich eine Frage:
Warum brauchen wir die Kundennummer-Attribute in 1. NF als Primärschlüssel?
Meiner Meinung nach reicht es die Bestellungsnummer & Artikelnummer, um einen Datensatz deutlich zu identifizieren.

Noch einen Wunsch:
Schwierigkeiten habe ich immer bei der IHK-Aufgaben, den Primärschlüssel in 2.NF herauszufinden 🙁
z.B. eine Tabele besteht aus folgenden Spalten:

Bestell-Nr. Datum Lieferant Artikel Menge Einzelpreis

Was sollte der Primärschlüssel sein? Könnten Sie uns vielleicht einen Tip uns geben?

Vielen Dank nochmal
Stefan Macke sagt:

13. Juni 2021 um 14:04:48 Uhr

Hallo Diaa,

da hast du recht! Im Beispiel wäre ein Datensatz mit Bestellnummer und Artikelnummer bereits eindeutig identifiziert! Ich habe die Kundennummer nur dazugenommen, um zu zeigen, dass eigentlich drei „Dinge“ in einer Tabelle verwurstet werden.

Zu deinem Beispiel: Die gezeigte Tabelle ist nicht in der 2. Normalform! Bestellung/Artikel (und ggfs. Artikel/Lieferant) sind m:n-Beziehungen, die in der 2. NF bereits aufgelöst sein müssten. Daher hast du auch Schwierigkeiten, den Schlüssel zu bestimmen.
peter sagt:

23. März 2022 um 11:09:09 Uhr

Ein Primärschlüssel, egal in welcher NF, muss minimal sein. Andernfalls könnte man theoretisch auch alle Spalten zusammen als Primärschlüssel markieren. Täte man dies in der 1. NF, hätte man zugleich die 2. und 3. NF erstellt – was aber zu völlig abstrusen Ergebnissen führen würde (im Sinne der Normalisierungsziele). Im obigen Bsp. muss, wie Diaa schrieb, als Primärschlüssel Bestellungsnummer&Artikelnummer bei der 1. NF gewählt werden. Dann lässt sich die 2. NF erzeugen, indem man sämtliche Attribute auslagert, die nur von einem Teil des Schlüssels abhängen.
In diesem Beispiel führt die Abweichungen von der Regel der Minimalität zu keinem Problem bei der Erstellung der 3. NF, da der Autor eine „intuitiv“ gute Wahl getroffen hat, ob das jedoch bei allen Anwendungsfällen gelingt, wage ich stark zu bezweifeln.
Stefan Macke sagt:

24. März 2022 um 14:51:32 Uhr

Hallo peter, danke für die Ergänzung!
Jan Dijkstra sagt:

21. Dezember 2023 um 13:16:31 Uhr

Danke für den Beitrag. Gut, dass auch auf die unnormalisierte Ausgangssituation eingegangen wurde. Ich plane ein neues Datenbankmodell für mein eigenes Unternehmen, das besser strukturiert ist. Dafür muss ich mich noch an einen Ansprechpartner für IT-Consulting wenden.
Stefan Macke sagt:

23. Dezember 2023 um 10:32:34 Uhr

Gern geschehen! 🙂
Konstantin Klein sagt:

2. März 2025 um 19:03:00 Uhr

Hallo,
besteht nicht eine transitive Abhängigkeit zwischen Postleitzahl und Ort?
Stefan Macke sagt:

4. März 2025 um 20:44:26 Uhr

Nein. Dazwischen liegt eine m-zu-n-Beziehung vor. Der Ort folgt nicht aus der PLZ.

Cookie	Dauer	Beschreibung
cookielawinfo-checbox-analytics	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Analytics zu speichern.
cookielawinfo-checbox-functional	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Funktional zu speichern.
cookielawinfo-checkbox-necessary	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Notwendig zu speichern.
cookielawinfo-checkbox-others	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Andere zu speichern.
cookielawinfo-checkbox-performance	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen für den Bereich Performance zu speichern.
viewed_cookie_policy	11 Monate	Dieser Cookie wird vom GDPR Cookie Consent Plugin gesetzt, um deine gewählten Cookie-Einstellungen zu speichern. Er enthält keine persönlichen Daten.

Cookie	Dauer	Beschreibung
_ga	2 Jahre	_ga ist das wichtigste Google Analytics-Cookie. _ga ermöglicht es einem Dienst, einen Nutzer von anderen zu unterscheiden und ist 2 Jahre lang gültig. Es wird von jeder Website verwendet, auf der Google Analytics implementiert ist, einschließlich der Google-Dienste. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen.
_gid	24 Stunden	Dieses Cookie wird von Google Analytics verwendet, um Benutzer zu unterscheiden. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen.

Cookie	Dauer	Beschreibung
IDE	24 Monate	Der IDE-Cookie wird verwendet, um Google-Werbung auf Websites einzublenden, die nicht zu Google gehören. IDE bleibt im EWR, in der Schweiz und im Vereinigten Königreich 13 Monate gültig, überall sonst 24 Monate. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen. Die von Google angezeigte Werbung kann auf dieser Seite angepasst werden: Mein Anzeigen-Center.
NID	6 Monate	Dieses Cookie enthält eine eindeutige ID, über die Ihre bevorzugten Einstellungen und andere Informationen gespeichert werden, insbesondere Ihre bevorzugte Sprache, wie viele Suchergebnisse pro Seite angezeigt werden sollen (z. B. 10 oder 20) und ob der Google SafeSearch-Filter aktiviert sein soll. Jedes "NID"-Cookie läuft 6 Monate nach der letzten Nutzung ab. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen.
_gads	13 Monate	_gads-Cookies ermöglichen Websites, Werbung von Google anzuzeigen, einschließlich personalisierter Werbung. Cookies, die mit _gac_ beginnen, stammen von Google Analytics und werden von Werbetreibenden verwendet, um Nutzeraktivitäten und die Leistung ihrer Werbekampagnen zu messen. Ein _gads-Cookie ist 13 Monate lang gültig und ein _gac_-Cookie 90 Tage lang. Wie Ihre personenbezogenen Daten von Google verwendet werden, erfahren Sie auf der Google-Seite Datenschutzerklärung & Nutzungsbedingungen. Die von Google angezeigte Werbung kann auf dieser Seite angepasst werden: Mein Anzeigen-Center.

Neueste Beiträge

Neueste Kommentare

Normalisierung einer Datenbank am konkreten Beispiel – Anwendungsentwickler-Podcast #144

Inhalt

Theoretische Grundlagen

Beispieldaten

Ausgangssituation (nicht normalisiert)

1. Normalform

2. Normalform

3. Normalform

Ergebnis

Literaturempfehlungen

Links

Stefan Macke

Polyglot Clean Code Developer

About the Author

13 comments on “Normalisierung einer Datenbank am konkreten Beispiel – Anwendungsentwickler-Podcast #144”

Schreibe einen Kommentar

Wer schreibt hier?

Suche

Newsletter

Produkte

Literaturempfehlungen

Unterstütze diese Seite

Werbung

Normalisierung einer Datenbank am konkreten Beispiel – Anwendungsentwickler-Podcast #144

Inhalt

Theoretische Grundlagen

Beispieldaten

Ausgangssituation (nicht normalisiert)

1. Normalform

2. Normalform

3. Normalform

Ergebnis

Literaturempfehlungen

Links

Stefan Macke

Polyglot Clean Code Developer

About the Author

13 comments on “Normalisierung einer Datenbank am konkreten Beispiel – Anwendungsentwickler-Podcast #144”

Schreibe einen Kommentar

Wer schreibt hier?

Suche

Newsletter

Produkte

Literaturempfehlungen

Unterstütze diese Seite

Werbung

Cookies