Bayessches Netzwerk (auch Bayes'sches Netzwerk) ist ein gerichteter azyklischer Graph, der zur Modellierung von unsicheren Zusammenhängen zwischen Variablen verwendet wird. Die Zufallsvariablen des Modells werden durch Knoten dargestellt; gerichtete Kanten kodieren bedingte Abhängigkeiten. Jedes Kind hat dabei eine bedingte Wahrscheinlichkeitsverteilung gegeben seine Eltern, oft als bedingliche Wahrscheinlichkeitstabelle (CPT) dargestellt. Aus den lokalen Verteilungen lässt sich die gemeinsame Verteilung der Variablen faktorisieren: P(X1,...,Xn) = ∏ P(Xi | Eltern(Xi)). Dadurch können komplexe, multivariate Wahrscheinlichkeitsverteilungen kompakt beschrieben werden.

Aufbau und wichtige Begriffe

  • Knoten: Repräsentieren einzelne Zufallsvariablen (diskret oder kontinuierlich).
  • Kanten: Gerichtete Kanten zeigen direkte Einfluss-Beziehungen bzw. bedingte Abhängigkeiten an.
  • Gerichteter azyklischer Graph (DAG): Der Graph darf keine Zyklen enthalten – das macht viele mathematische Eigenschaften handhabbar.
  • Bedingte Wahrscheinlichkeitsverteilungen (CPTs): Zu jedem Knoten gehört eine Verteilung P(Knoten | Eltern). Bei diskreten Variablen wird dies als Tabelle angegeben.
  • Unabhängigkeitsannahmen: Die Struktur kodiert, welche Variablen bei Kenntnis ihrer Eltern unabhängig voneinander sind (bedingte Unabhängigkeiten).

Inference (Schlussfolgerung)

Häufig möchte man aus beobachteten Daten die Wahrscheinlichkeit einer oder mehrerer unbekannter Variablen berechnen (z. B. Diagnose: P(Krankheit | Symptome)). Es gibt zwei Hauptklassen von Verfahren:

  • Exakte Methoden: Variable Elimination, Belief Propagation (für Bäume und dünne Graphen), Junction-Tree-Algorithmus (für allgemeinere Graphen).
  • Approximate Methoden: Sampling-Verfahren wie Gibbs-Sampling oder andere MCMC-Methoden, sowie Variationsansätze. Diese werden eingesetzt, wenn exakte Berechnung zu teuer ist.

Lernen von Bayesschen Netzwerken

Beim Lernen unterscheidet man zwei Aufgaben:

  • Parameterschätzung: Gegeben eine feste Struktur, werden die CPTs aus Daten gelernt. Methoden sind Maximum-Likelihood-Schätzung und bayessche Schätzung (mit Prioren). Bei fehlenden Daten kommt oft der EM-Algorithmus zum Einsatz.
  • Strukturlernen: Struktur kann aus Daten gelernt werden. Verfahren sind:
    • Score-basierte Methoden (z. B. BIC, BDe) kombiniert mit Suchstrategien (Greedy, Hill-Climbing, MCMC).
    • Constraint-basierte Methoden (z. B. PC-Algorithmus), die bedingte Unabhängigkeiten testen.

Anwendungen

Bayessche Netzwerke werden breit eingesetzt, insbesondere im Bereich des maschinellen Lernens. Typische Anwendungsfelder sind:

  • Medizinische Diagnose und klinische Entscheidungsunterstützung (Symptome → Krankheiten).
  • Fehlerdiagnose in technischen Systemen und Zuverlässigkeitsanalyse.
  • Bioinformatik (Genregulationsnetzwerke, Genexpressionsanalyse).
  • Spracherkennung, Bild- und Dokumentenklassifikation sowie Information Retrieval.
  • Robotik und Entscheidungsplanung unter Unsicherheit (teilweise kombiniert mit Entscheidungstheorie und Einflussdiagrammen).
  • Wahrscheinlichkeitsbasierte Modelle in Wirtschaft, Finanzen und Risikomanagement.

Bezug zu Bayes’ Theorem

Die Grundlagen gehen zurück auf die Entdeckung von Reverend Thomas Bayes; das Bayes-Theorem liefert die Formel, wie Vorwissen und Beobachtungen kombiniert werden, und ist Grundlage für die bedingte Wahrscheinlichkeit in Bayesschen Netzen.

Vorteile und Grenzen

  • Vorteile: Intuitive grafische Darstellung, klare Interpretation bedingter Unabhängigkeiten, modularer Aufbau (lokale Modellierung), Kombination von Daten und Expertenwissen.
  • Grenzen: Struktur- und Parameterlernen können bei vielen Variablen rechenintensiv sein. Für kontinuierliche Variablen oder sehr dichte Netze sind Approximationen nötig. Außerdem beruhen Modelle auf den angenommenen Unabhängigkeiten – falsche Annahmen können zu verzerrten Ergebnissen führen.

Kurzbeispiel

Ein einfaches diagnostisches Netzwerk: Knoten für Grippe, Fieber und Husten. Kanten von Grippe zu Fieber bzw. Husten. Aus den CPTs lässt sich z. B. P(Grippe | Fieber = ja, Husten = ja) berechnen. Solche Modelle helfen, implizite Ursachenwahrscheinlichkeiten aus beobachteten Symptomen abzuleiten.

In der Praxis existieren zahlreiche Softwarepakete und Bibliotheken zur Konstruktion, Visualisierung und Auswertung Bayesscher Netzwerke; bei der Modellwahl spielt die Datenmenge, die gewünschte Genauigkeit und die Frage nach Interpretierbarkeit eine große Rolle.