Die Protein Data Bank (PDB) ist eine zentrale, öffentlich zugängliche Sammlung von Informationen über die dreidimensionale (3‑D) Struktur großer biologischer Moleküle, wie Proteine und Nukleinsäuren. Die Daten werden von Biologen und Biochemikern aus der ganzen Welt eingesandt. Die meisten Strukturbestimmungen stammen aus der Röntgenkristallographie oder NMR‑Spektroskopie; in den letzten Jahren spielt auch die Kryo‑Elektronenmikroskopie (Kryo‑EM) eine zunehmend wichtige Rolle. Jeder kann online kostenlos auf die PDB zugreifen. Die Worldwide Protein Data Bank (wwPDB) verwaltet die PDB und koordiniert die Sammlung, Datenstandards und Qualitätssicherung.

Das PDB ist besonders nützlich für Wissenschaftler in der Strukturbiologie und Strukturgenomik. Viele Forscherinnen und Forscher sind verpflichtet, ihre Strukturdaten an die Datenbank zu übermitteln: Große wissenschaftliche Zeitschriften und Fördereinrichtungen, wie z. B. die National Institutes of Health in den Vereinigten Staaten, verlangen die Einreichung der Daten als Voraussetzung für die Veröffentlichung oder Förderung. Die PDB enthält die Original‑Koordinaten und oft auch die zugehörigen experimentellen Primärdaten. Hunderte von anderen Datenbanken nutzen diese Primärdaten weiter und bieten darauf aufbauend zusätzliche Analysen oder Klassifikationen an. Diese sogenannten Sekundärdatenbanken ordnen die Informationen auf unterschiedliche Weise: Beispielsweise gruppieren sowohl SCOP als auch CATH Strukturen nach Ähnlichkeit und vermuteter evolutionärer Verwandtschaft. Die Gen‑Ontologie ordnet die Daten in funktionale Kategorien, die auf Genen basieren.

Organisation und wwPDB

Die wwPDB ist ein Konsortium mehrerer Organisationen, die gemeinsam den Betrieb und die Qualitätskontrolle der PDB sicherstellen. Zu den Mitgliedern gehören Einrichtungen wie die RCSB PDB (USA), PDBe (Europa), PDBj (Japan) und das Biological Magnetic Resonance Data Bank (BMRB) für NMR‑Daten. Die wwPDB legt Standards für Datenformate und Validierungsberichte fest und sorgt dafür, dass Einträge weltweit synchron und frei verfügbar sind.

Typen von Daten und experimentelle Methoden

  • Koordinaten: Atompositionen der Moleküle (X, Y, Z).
  • Experimentelle Daten: z. B. Elektronendichtekarten und Strukturfaktoren für Röntgenstrukturen, NMR‑Restriktionen und Kryo‑EM‑Dichtekarten (häufig in der EMDB abgelegt).
  • Metadaten: Informationen zu Proteinname, Quelle, Kristallbedingungen, Liganden, biologischer Assembly und Publikationen.

Wichtige experimentelle Methoden sind Röntgenkristallographie, NMR‑Spektroskopie und Kryo‑Elektronenmikroskopie; jede Methode bringt spezifische Datenarten und Qualitätskriterien mit sich.

Dateiformate und Zugriff

Die PDB stellt Daten in mehreren Formaten bereit. Historisch verbreitet ist das klassische PDB‑Format; moderner und flexibler ist das mmCIF bzw. PDBx/mmCIF‑Format, das umfangreichere Metadaten unterstützt. Weitere Formate sind PDBML (XML) und verschiedene Binär- oder komprimierte Varianten. Zu jedem Eintrag gehören in der Regel eine Koordinatendatei und ein Validierungsbericht.

Die Datenbank kann über Weboberflächen der wwPDB‑Partner durchsucht werden (z. B. über Sequenzsuche, strukturelle Suche, Ligandenfilter oder erweiterte Abfragen). Viele Seiten bieten interaktive 3‑D‑Viewer, Download‑Optionen und Programmierschnittstellen (APIs) zur automatisierten Abfrage.

Einreichung, Validierung und Qualitätskontrolle

Forscherinnen und Forscher reichen Strukturen über ein spezielles Depositionstool ein. Die wwPDB führt automatische und manuelle Validierungen durch; Einträge erhalten einen Validierungsbericht, der Qualitätsscores, mögliche Probleme (z. B. ungewöhnliche Geometrien) und experimentelle Parameter zusammenfasst. Transparente Validierung hilft Reproduzierbarkeit und Vertrauen in die Daten.

Nutzung und Anwendungen

Die PDB‑Daten sind in vielen Bereichen zentral:

  • Strukturaufklärung biologischer Funktionen (Enzymmechanismen, Wechselwirkungen)
  • Strukturgestützte Wirkstoffforschung und Ligandenoptimierung
  • Computermodellierung, Docking‑Studien und Machine‑Learning‑Modelle
  • Lehre und Visualisierung in Ausbildung und Öffentlichkeitsarbeit

Sekundärdatenbanken und Integration

Viele andere Ressourcen bauen auf PDB‑Daten auf und bieten zusätzliche Klassifikationen, Funktionsannotationen oder evolutionäre Einordnungen. Beispiele sind SCOP und CATH (Strukturklassifikation) oder Datenbanken, die Ligandeninformationen und pharmakologische Daten integrieren. Solche Integrationen erleichtern vergleichende Analysen und groß angelegte Bioinformatik‑Studien.

Praktische Hinweise

  • PDB‑IDs: Jeder Eintrag bekommt eine eindeutige Kennung (PDB‑ID), mit der Struktur und zugehörige Daten gefunden werden.
  • Zugriff: Alle Daten sind frei verfügbar; viele Portale bieten zusätzliche Tools zur Visualisierung und Analyse.
  • Aktualität: Die Datenbank wächst ständig (aktuell mehrere zehntausend bis über 200.000 Einträge), und neue Methoden wie Kryo‑EM erweitern die Vielfalt der verfügbaren Strukturen.

Insgesamt ist die PDB ein unverzichtbares Werkzeug für moderne Lebenswissenschaften: Sie sammelt, standardisiert und verbreitet strukturelle Informationen, die Forschung, Lehre und Anwendungen in Biomedizin und Biotechnologie ermöglichen.