Corpus (Corpora/Korpus) – Definition, Bedeutung und Verwendungsbereiche

Corpus (Corpora/Korpus) – klare Definition, Bedeutung und Verwendungsbereiche: von Sprachforschung über Textanalyse bis Datenanwendungen. Verständlich erklärt mit Praxisbeispielen.

Autor: Leandro Alegsa

Corpus (Plural Corpora) ist lateinisch für Körper. Es kann bedeuten:

  • Allgemein: Ein zusammenhängendes Ganzes oder ein „Körper“ von Material (z. B. ein Werkgebrauch, eine Sammlung von Dokumenten).
  • In der Linguistik und Computerlinguistik: Eine strukturierte Sammlung von Texten oder Sprachdaten, die für die sprachwissenschaftliche Forschung oder die Entwicklung sprachlicher Anwendungen verwendet wird.
  • In der Rechts- und Forensik-Sprache: Begriffe wie corpus delicti (Tatkörper/Tatbestand) – hier geht es nicht um ein Lingua-Korpus, sondern um den „Körper“ der Beweismittel.
  • In anderen Disziplinen: Sammlung von Daten in strukturierter Form (z. B. Korpora von Programmcode, Musiktranskriptionen, Bildsammlungen) zur Analyse.

Was versteht man unter einem linguistischen Korpus?

Ein linguistisches Korpus ist typischerweise eine digitalisierte, nach bestimmten Kriterien zusammengestellte und oft annotierte Sammlung von Texten oder Sprachaufnahmen. Ziel ist es, reale Sprachverwendung zu dokumentieren und empirisch zu untersuchen.

Typen von Korpora

  • Monolinguale Korpora: Texte in einer Sprache (z. B. British National Corpus).
  • Parallele Korpora: Gleiches Material in mehreren Sprachen (nützlich für maschinelle Übersetzung).
  • Gesprochene Korpora: Aufnahmen und Transkripte gesprochener Sprache (z. B. Dialoge, Interviews).
  • Multimodale Korpora: Kombination aus Text, Audio, Video, Gestik etc.
  • Learner-Korpora: Texte von Sprachlernenden zur Erforschung von Fehlern und Entwicklungsstufen.
  • Historische Korpora: Alt- oder frühneuzeitliche Texte für diachrone Studien.
  • Domänenspezifische Korpora: Fachsprachliche Sammlungen (Medizin, Recht, Technik, Social Media).

Aufbau und Annotation

Korpora werden oft mehrschichtig annotiert, z. B.:

  • Tokenisierung (Wörter, Satzzeichen).
  • POS-Tagging (Wortartenkennzeichnung).
  • Lemmatisierung (Grundformen).
  • Syntaktische Annotation (Phrasen-/Baumstrukturen).
  • Semantische Annotation (Sinn, Rollen, Named Entities).
  • Prosodische und parasprachliche Annotationen bei gesprochenen Korpora.

Methoden der Korpusanalyse

  • Häufigkeitslisten: Ermittlung der häufigsten Wörter oder Konstruktionen.
  • KWIC (Key Word In Context): Konkordanzen, um Verwendungskontexte zu untersuchen.
  • Collocation-Analyse: Häufige Wortkombinationen und Assoziationsmaße (MI, t‑score).
  • N-Gramme: Sequenzen von n Elementen (z. B. Zweier- oder Dreierkombinationen).
  • Keyness/Keyword-Analyse: Charakteristische Wörter für Korpora oder Korpusteile.
  • Distributionale Analysen: Untersuchung räumlicher/genrebedingter Verteilung von Ausdrücken.

Anwendungen

  • Lexikographie: Erstellung oder Überarbeitung von Wörterbucheinträgen auf Basis realer Verwendung.
  • Sprachtypologie und Grammatikforschung: Empirische Belege für Konstruktionen.
  • Sprachunterricht: Materialentwicklung basierend auf authentischer Sprache.
  • Natural Language Processing (NLP): Training und Evaluation von Modellen (z. B. Sprachmodelle, POS-Tagger, MT, Named Entity Recognition).
  • Soziolinguistik und Diskursanalyse: Untersuchung von Variation nach Region, sozialer Gruppe, Medium.
  • Forensische Linguistik: Autorenerkennung, Plagiatsanalysen.
  • Digital Humanities: Quantitative und qualitative Analysen literarischer oder historischer Texte.

Erstellung eines Korpus – Schritte

  • Festlegung des Korpuszwecks und der Auswahlkriterien (Genre, Zeitraum, Medium).
  • Sammlung der Quellen (Web, Archive, Interviews, Datenbanken).
  • Digitale Erfassung und Reinigung (OCR-Korrektur, Entfernen von Metadaten).
  • Annotation und Formatierung (z. B. TEI/XML, CoNLL).
  • Speicherung mit Metadaten (Autor, Datum, Herkunft, Lizenz).
  • Qualitätssicherung und Dokumentation (Handbuch, Versionierung).

Tools und Formate

  • Konkordanz-Tools: AntConc, Corpus Workbench.
  • Annotation/Tagging: TreeTagger, spaCy, NLTK, Stanford NLP.
  • Transkriptions- und multimodale Tools: ELAN, Praat.
  • Formate: TEI/XML, CoNLL, CSV, JSON-LD.
  • Kommerzielle/kommerzähnliche Dienste: Sketch Engine, proprietary corpora.

Zugang, Lizenzen und ethische Aspekte

  • Viele Korpora sind frei zugänglich (z. B. Open corpora), andere sind kostenpflichtig oder lizenziert (z. B. über LDC, ELRA).
  • Bei gesprochenen Korpora ist das Einholen von Einverständniserklärungen zentral; personenbezogene Daten müssen ggf. anonymisiert werden.
  • Datenschutz (z. B. DSGVO) spielt eine wichtige Rolle, besonders bei personenbezogenen oder sensiblen Daten.
  • Reproduzierbarkeit: Ausführliche Dokumentation der Methoden und Metadaten ist Best Practice.

Bekannte Beispiele von Korpora

  • Brown Corpus (englisch, frühes Standardkorpus).
  • British National Corpus (BNC).
  • Corpus of Contemporary American English (COCA).
  • Europarl (paralleles Korpus von Parlamentsreden).
  • Leipzig Corpora Collection, OPUS-Repository, Common Crawl, Wikipedia-Dumps.

Best Practices

  • Definiere klare Auswahlkriterien und dokumentiere den Aufbau des Korpus.
  • Versioniere Korpora und halte Änderungen nachvollziehbar.
  • Stelle Metadaten umfassend bereit (Quelle, Datum, Genre, Annotationsebenen, Lizenz).
  • Beachte rechtliche und ethische Vorgaben; anonymisiere personenbezogene Daten wenn nötig.
  • Nutze offene Formate und standardisierte Annotation (TEI, CoNLL) für Austauschbarkeit.

Ein Corpus ist damit ein zentrales Instrument für empirische Sprachforschung und viele angewandte Bereiche der Informatik und digitalen Geisteswissenschaften. Je nach Zweck unterscheiden sich Umfang, Struktur, Annotation und Zugangsbedingungen erheblich.



Suche in der Enzyklopädie
AlegsaOnline.com - 2020 / 2025 - License CC3