In Mathematik und Statistik ist der Spearman'sche Rangkorrelationskoeffizient ein Korrelationsmaß, benannt nach seinem Schöpfer, Charles Spearman. Er wird kurz als der griechische Buchstabe rho ( ρ {\displaystyle \rho } {\displaystyle \rho }) oder manchmal als r s {\displaystyle r_{s}} geschrieben. {\displaystyle r_{s}} Es ist eine Zahl, die angibt, wie stark zwei Datensätze in einem monotonen Zusammenhang zueinander stehen. Der Spearman-Koeffizient kann nur für Daten verwendet werden, die geordnet werden können (ordinal, intervall- oder verhältnisskalierte Daten), also z. B. vom höchsten zum niedrigsten Wert oder umgekehrt.

Formel

Die gebräuchliche geschlossene Formel für den Spearman-Rangkorrelationskoeffizienten lautet

ρ = 1 - 6 ∑ d 2 / n ( n 2 - 1 ) — beziehungsweise in gut lesbarer Schreibweise:

ρ = 1 − (6 · Σd²) / (n (n² − 1)) {\displaystyle r_{s}} {\displaystyle \rho =1-{\cfrac {6\sum d^{2}}{n(n^{2}-1)}}}.

Dabei ist n die Anzahl der Paare, d die Differenz der Ränge eines Paares (Rang von X minus Rang von Y) und Σd² die Summe der quadrierten Rangdifferenzen.

Berechnungsschritte

  1. Ordnen (ranken) Sie die Werte jeder Variablen separat. Achten Sie darauf, für beide Variablen dasselbe Rangierungsschema zu verwenden (z. B. 1 = größter Wert oder 1 = kleinster Wert).
  2. Bei gebundenen Werten (Ties) weisen Sie den gebundenen Werten den mittleren Rang (Durchschnittsrang) zu.
  3. Berechnen Sie für jedes Paar die Differenz d zwischen den beiden Rängen und anschließend d².
  4. Summieren Sie alle d² und setzen Sie die Werte in die Formel ρ = 1 − (6·Σd²) / (n(n² − 1)) ein.
  5. Alternativ kann man den Spearman-Koeffizienten auch als Pearson-Korrelation der Ränge berechnen (Korrelation der Rangwerte statt der Originalwerte). Das ist besonders bei vielen Ties empfehlenswert.

Beispiel

Angenommen, Sie haben Daten darüber, wie teuer verschiedene Computer sind, und Daten darüber, wie schnell die Computer sind. Mit dem Spearman-Koeffizienten können Sie prüfen, ob eine monotone Beziehung vorliegt und wie stark diese ist. {\displaystyle r_{s}}

Beispieldaten (n = 5):

  • Computer A: Preis = 1000, Geschwindigkeit = 260
  • Computer B: Preis = 1500, Geschwindigkeit = 290
  • Computer C: Preis = 1200, Geschwindigkeit = 240
  • Computer D: Preis = 800, Geschwindigkeit = 200
  • Computer E: Preis = 2000, Geschwindigkeit = 350

Ränge (1 = höchster Wert):

  • Preis-Ränge: A → 4, B → 2, C → 3, D → 5, E → 1
  • Geschwindigkeits-Ränge: A → 3, B → 2, C → 4, D → 5, E → 1

Rangdifferenzen und Quadrate:

  • A: d = 4 − 3 = 1 → d² = 1
  • B: d = 2 − 2 = 0 → d² = 0
  • C: d = 3 − 4 = −1 → d² = 1
  • D: d = 5 − 5 = 0 → d² = 0
  • E: d = 1 − 1 = 0 → d² = 0

Σd² = 1 + 0 + 1 + 0 + 0 = 2, n = 5 →

ρ = 1 − (6·2) / (5(5² − 1)) = 1 − 12 / (5·24) = 1 − 12 / 120 = 0,9.

Interpretation

  • ρ = +1: perfekte positive monotone Beziehung (steigende Werte von X ↔ steigende Werte von Y).
  • ρ = −1: perfekte negative monotone Beziehung (steigende Werte von X ↔ fallende Werte von Y).
  • ρ nahe 0: keine monotone Beziehung erkennbar.

Wichtige Hinweise und Unterschiede zu Pearson

  • Der Spearman-Koeffizient misst monotone Zusammenhänge (nicht nur lineare). Er ist deshalb robuster gegenüber Ausreißern und nichtlinearen, aber monotonen Beziehungen.
  • Bei gebundenen Rängen (Ties) sollten die Ränge gemittelt werden; bei vielen Ties ist die exakte Varianzformel komplexer, in der Praxis wird oft die Pearson-Korrelation der Rangwerte verwendet.
  • Für Hypothesentests (z. B. ob ρ ≠ 0) kann bei hinreichend großem n eine t-Approximation verwendet werden; es gibt aber auch exakte Tests für kleine Stichproben.
  • Spearman ist nicht geeignet, wenn ausschließlich lineare Zusammenhänge mit Annahmen zu Normalverteilungen getestet werden sollen — in solchen Fällen ist der Pearson-Korrelationskoeffizient angemessener.