Statistik

Statistik ist ein Zweig der angewandten Mathematik, der sich mit der Sammlung, Organisation, Analyse, Interpretation und Präsentation von Daten befasst. Deskriptive Statistik fasst Daten zusammen. Inferenzstatistik macht Vorhersagen. Statistik hilft beim Studium vieler anderer Bereiche, wie Wissenschaft, Medizin, Wirtschaft, Psychologie, Politik und Marketing. Jemand, der in der Statistik arbeitet, wird als Statistiker bezeichnet. Das Wort "Statistik" ist nicht nur der Name eines Studienfachs, sondern bezieht sich auch auf Zahlen, die zur Beschreibung von Daten oder Beziehungen verwendet werden.

Geschichte

Die ersten bekannten Statistiken sind Volkszählungsdaten. Die Babylonier führten um 3500 v. Chr., die Ägypter um 2500 v. Chr. und die alten Chinesen um 1000 v. Chr. eine Volkszählung durch.

Ab dem 16. Jahrhundert entwickelten Mathematiker wie Gerolamo Cardano die Wahrscheinlichkeitstheorie, die aus der Statistik eine Wissenschaft machte. Seitdem haben Menschen über viele Dinge Statistiken gesammelt und studiert. Bäume, Seesterne, Sterne, Felsen, Wörter, fast alles, was sich zählen lässt, war Gegenstand der Statistik.

Sammeln von Daten

Bevor wir die Welt mit Statistiken beschreiben können, müssen wir Daten sammeln. Die Daten, die wir in der Statistik sammeln, nennt man Messungen. Nachdem wir Daten gesammelt haben, verwenden wir eine oder mehrere Zahlen, um jede Beobachtung oder Messung zu beschreiben. Nehmen wir zum Beispiel an, wir wollen herausfinden, wie beliebt eine bestimmte Fernsehsendung ist. Wir können eine Gruppe von Personen (eine so genannte Stichprobe) aus der Gesamtzahl der Zuschauer auswählen. Dann fragen wir jeden Zuschauer in der Stichprobe, wie oft er sich die Sendung ansieht. Bei der Stichprobe handelt es sich um Daten, die Sie sehen können, und bei der Grundgesamtheit um Daten, die Sie nicht sehen können (da Sie nicht jeden Zuschauer in der Grundgesamtheit gefragt haben). Ein anderes Beispiel: Wenn wir wissen wollen, ob ein bestimmtes Medikament zur Senkung des Blutdrucks beitragen kann, könnten wir das Medikament den Menschen eine Zeit lang geben und ihren Blutdruck davor und danach messen.

Deskriptive und schlussfolgernde Statistik

Zahlen, die Daten beschreiben, die Sie sehen können, werden deskriptive Statistik genannt. Zahlen, die Vorhersagen über Daten machen, die Sie nicht sehen können, werden als Inferenzstatistik bezeichnet.

Bei der deskriptiven Statistik werden Zahlen verwendet, um Merkmale von Daten zu beschreiben. Beispielsweise ist die durchschnittliche Körpergröße von Frauen in den Vereinigten Staaten eine deskriptive Statistik, die ein Merkmal (durchschnittliche Körpergröße) einer Bevölkerung (Frauen in den Vereinigten Staaten) beschreibt.

Sobald die Ergebnisse zusammengefasst und beschrieben sind, können sie zur Vorhersage verwendet werden. Dies wird als Inferenzstatistik bezeichnet. Als Beispiel: Die Größe eines Tieres ist von vielen Faktoren abhängig. Einige dieser Faktoren werden von der Umgebung gesteuert, andere wiederum von der Vererbung. Ein Biologe könnte daher ein Modell erstellen, das besagt, dass eine hohe Wahrscheinlichkeit besteht, dass der Nachwuchs klein sein wird, wenn die Eltern klein wären. Mit diesem Modell lässt sich die Größe wahrscheinlich besser vorhersagen als durch bloße Vermutungen nach dem Zufallsprinzip. Die Prüfung, ob ein bestimmtes Medikament zur Heilung einer bestimmten Krankheit oder eines bestimmten Leidens eingesetzt werden kann, erfolgt in der Regel durch den Vergleich der Ergebnisse von Personen, denen das Medikament verabreicht wird, mit denen von Personen, denen ein Placebo verabreicht wird.

Methoden

Meistens sammeln wir statistische Daten, indem wir Umfragen oder Experimente durchführen. Zum Beispiel ist eine Meinungsumfrage eine Art von Umfrage. Wir wählen eine kleine Anzahl von Personen aus und stellen ihnen Fragen. Dann verwenden wir ihre Antworten als Daten.

Die Wahl, welche Personen sich für eine Umfrage oder Datenerhebung entscheiden, ist wichtig, da sie die Statistiken direkt beeinflusst. Wenn die Statistiken fertig sind, kann nicht mehr bestimmt werden, welche Personen sich für eine Umfrage oder Datenerhebung anmelden. Angenommen, wir wollen die Wasserqualität eines großen Sees messen. Wenn wir Proben in der Nähe des Abflusses nehmen, erhalten wir andere Ergebnisse als wenn die Proben an einer weit entfernten, schwer zugänglichen Stelle des Sees genommen werden.

Es gibt zwei Arten von Problemen, die häufig bei der Probenahme auftreten:

  1. Wenn es viele Stichproben gibt, werden die Stichproben wahrscheinlich sehr nahe an dem liegen, was sie in der realen Bevölkerung sind. Wenn es jedoch nur sehr wenige Stichproben gibt, können sie sich sehr stark von dem unterscheiden, was sie in der realen Bevölkerung sind. Dieser Fehler wird als Zufallsfehler bezeichnet (siehe Fehler und Residuen in der Statistik).
  2. Die Personen für die Stichproben müssen sorgfältig ausgewählt werden, in der Regel werden sie nach dem Zufallsprinzip ausgewählt. Wenn dies nicht der Fall ist, können die Stichproben sehr verschieden von dem sein, was sie in der Gesamtpopulation tatsächlich sind. Dies gilt selbst dann, wenn eine große Anzahl von Stichproben genommen wird. Diese Art von Fehler wird Verzerrung genannt.

Fehler

Wir können Zufallsfehler reduzieren, indem wir eine größere Stichprobe nehmen, und wir können eine gewisse Verzerrung vermeiden, indem wir nach dem Zufallsprinzip wählen. Manchmal ist es jedoch schwierig, große Zufallsstichproben zu nehmen. Und Verzerrungen können auftreten, wenn verschiedene Personen nicht gefragt werden oder sich weigern, unsere Fragen zu beantworten, oder wenn sie wissen, dass sie eine gefälschte Behandlung erhalten. Diese Probleme können schwer zu beheben sein. Siehe auch Standardfehler.

Beschreibende Statistik

Die Mitte der Daten finden

Die Mitte der Daten wird als Durchschnitt bezeichnet. Der Mittelwert sagt uns etwas über ein typisches Individuum in der Bevölkerung aus. Es gibt drei Arten von Durchschnittswerten, die häufig verwendet werden: der Mittelwert, der Median und der Modus.

Die folgenden Beispiele verwenden diese Beispieldaten:

 Name | A    B    C    D    E    F    G    H    I    J ---------------------------------------------   score| 23 26 49 49 49 57 64 66 78 82 92

Bedeutet

Die Formel für den Mittelwert lautet

x ¯ = 1 N ∑ i = 1 N x i = x 1 + x 2 + + x N N {\displaystyle {\bar {x}}={\frac {1}{N}}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}}{N}}}} {\displaystyle {\bar {x}}={\frac {1}{N}}\sum _{i=1}^{N}x_{i}={\frac {x_{1}+x_{2}+\cdots +x_{N}}{N}}}

Wobei x 1 , x 2 , ... , x N {\darstellungsstil x_{1},x_{2},\ldots ,x_{N}}{\displaystyle x_{1},x_{2},\ldots ,x_{N}} die Daten und N {\darstellungsstil N}{\displaystyle N} die Bevölkerungsgröße sind. (siehe Sigma-Notation).

Das bedeutet, dass Sie alle Werte addieren und dann durch die Anzahl der Werte dividieren.

In unserem Beispiel x ¯ = ( 23 + 26 + 49 + 49 + 49 + 57 + 64 + 66 + 78 + 82 + 92 ) / 10 = 58.6 {\darstellungsstil {\bar {x}}=(23+26+49+49+49+57+64+66+78+82+92)/10=58.6} {\displaystyle {\bar {x}}=(23+26+49+49+57+64+66+78+82+92)/10=58.6}

Das Problem mit dem Mittelwert ist, dass er nichts darüber aussagt, wie die Werte verteilt sind. Werte, die sehr groß oder sehr klein sind, verändern den Mittelwert sehr stark. In der Statistik können diese Extremwerte Messfehler sein, aber manchmal enthält die Bevölkerung diese Werte tatsächlich. Zum Beispiel, wenn sich in einem Raum 10 Personen befinden, die 10 $/Tag verdienen, und 1 Person, die 1.000.000 $/Tag verdient. Der Mittelwert der Daten liegt bei $90.918/Tag. Auch wenn es sich um den Durchschnittsbetrag handelt, ist der Mittelwert in diesem Fall nicht der Betrag, den eine einzelne Person verdient, so dass er für manche Zwecke nutzlos ist.

Dies ist das "arithmetische Mittel". Andere Arten sind für einige Zwecke nützlich.

Median

Der Median ist das mittlere Element der Daten. Um den Median zu finden, sortieren wir die Daten von der kleinsten Zahl bis zur größten Zahl und wählen dann die Zahl in der Mitte. Wenn es eine gerade Anzahl von Daten gibt, gibt es keine Zahl in der Mitte, also wählen wir die beiden mittleren und berechnen ihren Mittelwert. In unserem Beispiel gibt es 10 Datenelemente, die beiden mittleren sind "57" und "64", so dass der Median (57+64)/2 = 60,5 ist. Ein weiteres Beispiel, wie das für den Mittelwert vorgestellte Einkommensbeispiel, betrachtet ein Zimmer mit 10 Personen, die ein Einkommen von 10, 20, 20, 40, 50, 60, 90, 90, 100 und 1.000.000 $ haben, der Median beträgt 55 $, weil 55 $ der Durchschnitt der beiden mittleren Zahlen 50 und 60 $ ist. Wenn der Extremwert von $1.000.000 ignoriert wird, beträgt der Mittelwert $53. In diesem Fall liegt der Median nahe an dem Wert, den man erhält, wenn man den Extremwert wegwirft. Der Median löst das Problem der Extremwerte wie in der Definition des Mittelwerts oben beschrieben.

Modus

Der Modus ist das häufigste Datenelement. Zum Beispiel ist der häufigste Buchstabe im Englischen der Buchstabe "e". Wir würden sagen, dass "e" der Modus der Verteilung der Buchstaben ist.

Wenn sich zum Beispiel in einem Raum 10 Personen mit einem Einkommen von 10, 20, 20, 40, 50, 60, 90, 90, 90, 90, 100 und 1.000.000 $ befinden, ist der Modus 90 $, weil 90 $ dreimal vorkommt und alle anderen Werte weniger als dreimal vorkommen.

Es kann mehr als einen Modus geben. Wenn sich zum Beispiel in einem Raum 10 Personen mit einem Einkommen von $10, $20, $20, $20, $20, $50, $60, $90, $90, $90, $100 und $1.000.000 befinden, sind die Modi $20 und $90. Dies ist bimodal oder hat zwei Modi. Die Bimodalität ist sehr häufig und deutet oft darauf hin, dass die Daten die Kombination von zwei verschiedenen Gruppen sind. Zum Beispiel weist die durchschnittliche Körpergröße aller Erwachsenen in den USA eine bimodale Verteilung auf. Dies ist darauf zurückzuführen, dass Männer und Frauen unterschiedliche durchschnittliche Körpergrößen von 1,763 m (5 ft 9 + 1⁄2 in) für Männer und 1,622 m (5 ft 4 in) für Frauen haben. Diese Spitzenwerte werden deutlich, wenn beide Gruppen kombiniert werden.

Der Modus ist die einzige Form der Mittelwertbildung, die für Daten verwendet werden kann, die nicht in Ordnung gebracht werden können.

Auffinden der Verbreitung der Daten

Eine andere Sache, die wir über einen Datensatz sagen können, ist, wie verbreitet er ist. Eine gängige Methode zur Beschreibung der Streuung eines Datensatzes ist die Standardabweichung. Wenn die Standardabweichung eines Datensatzes klein ist, dann liegen die meisten Daten sehr nahe am Durchschnitt. Wenn die Standardabweichung jedoch groß ist, dann weichen viele Daten sehr stark vom Durchschnitt ab.

Wenn die Daten dem allgemeinen Muster folgen, das als Normalverteilung bezeichnet wird, ist es sehr nützlich, die Standardabweichung zu kennen. Wenn die Daten diesem Muster folgen (wir würden sagen, die Daten sind normalverteilt), dann liegen etwa 68 von 100 Datenstücken um weniger als die Standardabweichung vom Durchschnitt ab. Nicht nur das, sondern etwa 95 von 100 Messungen liegen um weniger als das Zweifache der Standardabweichung vom Mittelwert ab, und etwa 997 von 1000 liegen näher am Mittelwert als drei Standardabweichungen.

Andere deskriptive Statistiken

Wir können auch Statistiken verwenden, um herauszufinden, dass einige Prozent, ein Perzentil, eine Anzahl oder ein Bruchteil der Menschen oder Dinge in einer Gruppe etwas tun oder in eine bestimmte Kategorie passen.

Sozialwissenschaftler haben zum Beispiel anhand von Statistiken herausgefunden, dass 49% der Menschen auf der Welt männlich sind.

Zugehörige Software

Zur Unterstützung der Statistiker wurden zahlreiche statistische Software entwickelt:

  • SAS-Institut
  • SPSS (hergestellt von IBM)
AlegsaOnline.com - 2020 - License CC3