Skripte DHBW

Vorlesungsskripte aus dem DHBW-Studium

Zusammenfassung Datenbanken 2

geschrieben am 19.12.2018 von Morten Terhart


Inhaltsverzeichnis

Datenmanagement und Modellierung

Historische Datenmodellierung

Datenmanagement

Definition nach DAMA-DMBOK: Data Management Body of Knowledge (Edition 2):

Datenmanagement ist die Entwicklung, Ausführung und Überwachung von Plänen, Richtlinien, Programmen und Techniken, die den Wert der Daten und die Informationen innerhalb ihres Lebenszyklus liefern, kontrollieren, schützen und verbessern.

Kurze Definition:

Datenmanagement liefert, kontrolliert, schützt und verbessert den Wert von Daten.

Prinzipien des Datenmanagement

Body of Knowledge

Data Governance

Wieviel sind Daten wert?

Data Architecture

Modelling and Design

Data Storage and Operations

Database Processing

Data Security

Data Integration and Interoperability

Document and Content Management

Reference and Master Data

Data Warehouse and Business Intelligence

Metadata

Data Quality

Data Modelling

Überblick über die 3 Ebenen der Datenmodellierung

graph TD
  A("Konzeptionell") ==> B("Logisch")
  B ==> C("Physikalisch")
  1. Konzeptionell: technologieunabhängige Spezifikation der Daten in der Datenbank
  2. Logisch: Umwandlung des konzeptionellen Modells in Strukturen, die durch ein DBMS implementiert werden können
  3. Physikalisch: fasst alle Änderungen zusammen, die für die erwünschte Performance nötig sind

Verantwortlichkeiten Data Modelling

Data Modelling Responsibilities

Wie sieht ein gutes Datenmodell aus?

Faktoren für ein gutes Datenmodell:

Praktischer Datenmodellierungsansatz

Praktischer Datenmodellierungsansatz

Relationale Modellierung

12 Regeln von Edgar F. Codd

  1. Informationsregel: Daten in einer Datenbank müssen Werte in einer Tabellenzelle sein
  2. Regel des garantierten Zugriffs: jedes Datenelement muss erreichbar sein
  3. Behandlung von NULL-Werten: NULL kann bedeuten: Daten fehlen, Daten sind nicht bekannt oder Daten sind nicht erreichbar
  4. Aktiver Online-Katalog: Die Strukturbeschreibung einer Datenbank muss in einem Online-Katalog, dem Data Dictionary, gespeichert sein
  5. Daten-Subsprache: Zugriff auf Daten über eine Sprache, die Datendefinition, Datenmanipulation und Transaktionsmanagement unterstützt
  6. Aktualisierung von Ansichten: Alle Ansichten der Datenbank müssen aktualisiert werden können
  7. High-Level Insert, Update und Delete: muss einzelne Zeilen, Vereinigungen, Schnittmengen und andere Operationen unterstützen
  8. Unabhängigkeit der physikalischen Daten: Daten in der Datenbank müssen unabhängig von den zugreifenden Anwendungen sein
  9. Unabhängigkeit der logischen Daten: logische Daten in der Datenbank müssen unabhängig von der Benutzeransicht sein
  10. Unabhängigkeit der Integrität: alle Integritätsbedingungen müssen unabhängig voneinander modifiziert werden können
  11. Unahbängigkeit der Verteilung: Der Endanwender darf nicht sehen können, dass die Daten über mehrere Standorte verteilt werden
  12. Non-Subversion-Regel: ein System mit einer Schnittstelle nach außen darf nicht Sicherheits- und Integritätsvereinbarungen umgehen

Normalisierung

Zero Normal Form

Erste Normalform

Zweite Normalform

Dritte Normalform

Design-Elemente eines ERM-Diagramms

Physikalisches Datenmodell

Dimensionierte Modellierung

Definition

Dimensionerte Modellierung ist eine logische Design-Technik, die die Daten in einem intuitiven standardmäßigen Bezugssystem präsentiert, welches einen sehr schnellen Zugriff erlaubt.

Data Vault

Definition

Data Vault ist ein detailliertes Nachverfolgen historischer Daten und besteht aus verknüpften normalisierten Tabellen, die eine oder mehrere funktionale Geschäftsbereiche unterstützen.

Bestandteile

Data Vault besteht aus drei Hauptkomponente:

  1. Hubs: Business Keys
  2. Links: Assoziationen zwischen Hubs
  3. Satellites: enthalten Details zu Hubs und Links und bieten somit wichtigen Kontext

Trennung der Komponenten

Wann wird welche Technik eingesetzt?

Wann wird welche Technik eingesetzt?

OLTP vs. OLAP OLTP vs OLAP

Data Flow and Preparation

ETL (Extract, Transform, Load)

ETL

Data Wrangling

Data Prep

Lean Startup

Lean Startup

Data Visualization

Ästhetik

Arten der Informationen in einem Diagramm:

Arten der Visualisierung

Balkendiagramme

Balkendiagramme

Histogramme

Histogramme

Liniendiagramme

Liniendiagramme

Flächendiagramme

Flächendiagramme

Streudiagramme

Streudiagramme

Kartendiagramme

Kartendiagramme

Andere Diagrammarten

Andere Diagrammarten

Problem des Overplotting

Problem des Overplotting

4 Prinzipien für ein gutes Dashboard

  1. Die 5-Sekunden-Regel: Das Dashboard sollte alle relevanten Informationen in 5 Sekunden liefern
  2. Logisches Layout: Signifikante Analysen nach oben, Trends in die Mitte und Details nach unten ins Dashboard (invertierte Pyramide)
  3. Minimalismus: Weniger ist mehr, nicht mehr als 5 bis 9 Visualisierungen
  4. Die richtigen Visualisierungen auswählen

Data Quality

Data is the new oil.

Definition

nach ISO1:

das Maß, nach dem Daten den Benutzeranforderungen entsprechen

Cluster der Datenqualität

Dimensionen und Metriken

Vereinbarung von Vor- und Nachteilen (Trade-Offs)

Data Quality Management

Definition: koordinierte Aktivitäten zur Steuerung einer Organisation mit Bezug zu Datenqualität

Klassischer Ansatz zum Data Quality Management

Klassischer Ansatz Data Quality Management

Strategien zur Verbesserung der Datenqualität

Machine Learning

Aktuelle Lösung im ML

ML Expertise + Daten + Verarbeitung

Standardprozess für Data Mining

Data Mining Prozess

Arten der künstlichen Intelligenz

Arten von künstlicher Intelligenz

Beispiele für Machine Learning

Konzept des Machine Learning

Machine Learning Konzept

Komponenten des Machine Learning

Komponenten des Machine Learning

Learning = Representation + Evaluation + Optimization

Repräsentation

Evaluation

Optimierung

ML Learner Übersicht

ML Learner Übersicht

Overfitting

Underfitting

Bias und Varianz

Bias vs. Varianz

Grundlegende Mathematik

Überwachte ML-Algorithmen

Nicht überwachte ML-Algorithmen

Informationsgewinnung

Feature Engineering

Data Warehouse

Data Lake