Die lineare Regression ist eine Möglichkeit, die Beziehung zwischen einer abhängigen Variable und einer oder mehreren erklärenden Variablen mit Hilfe einer geraden Linie zu erklären. Sie ist ein Spezialfall der Regressionsanalyse.

Die lineare Regression war die erste Art der Regressionsanalyse, die rigoros untersucht wurde. Dies liegt daran, dass Modelle, die linear von ihren unbekannten Parametern abhängen, leichter anzupassen sind als Modelle, die nicht linear mit ihren Parametern zusammenhängen. Außerdem sind die statistischen Eigenschaften der resultierenden Schätzer leichter zu bestimmen.

Die lineare Regression hat viele praktische Anwendungen. Die meisten Anwendungen fallen in eine der beiden folgenden großen Kategorien:

  • Die lineare Regression kann verwendet werden, um ein prädiktives Modell an einen Satz von beobachteten Werten (Daten) anzupassen. Dies ist nützlich, wenn das Ziel eine Vorhersage, eine Prognose oder eine Reduzierung ist. Wenn nach der Entwicklung eines solchen Modells ein zusätzlicher Wert von X ohne den zugehörigen Wert von y gegeben ist, kann das angepasste Modell verwendet werden, um eine Vorhersage des Wertes von y zu machen.
  • Angesichts einer Variablen y und einer Reihe von Variablen X1, ..., Xp, die mit y in Beziehung stehen können, kann die lineare Regressionsanalyse angewandt werden, um die Stärke der Beziehung zwischen y und Xj zu quantifizieren, um zu beurteilen, welche Xj überhaupt keine Beziehung zu y hat, und um zu ermitteln, welche Teilmengen von Xj redundante Informationen über y enthalten.

Lineare Regressionsmodelle versuchen, den vertikalen Abstand zwischen der Linie und den Datenpunkten (z.B. den Residuen) so klein wie möglich zu machen. Dies wird als "Anpassen der Linie an die Daten" bezeichnet. Häufig versuchen lineare Regressionsmodelle, die Summe der Quadrate der Residuen (kleinste Quadrate) zu minimieren, aber es gibt auch andere Möglichkeiten der Anpassung. Dazu gehören die Minimierung des "Mangels an Anpassung" in einer anderen Norm (wie bei der Regression der kleinsten absoluten Abweichungen) oder die Minimierung einer bestraften Version der Verlustfunktion der kleinsten Quadrate wie bei der Ridge-Regression. Die Methode der kleinsten Quadrate kann auch zur Anpassung von Modellen verwendet werden, die nicht linear sind. Wie oben dargelegt, sind die Begriffe "kleinste Quadrate" und "lineares Modell" eng miteinander verbunden, aber sie sind keine Synonyme.