Das Zipf-Gesetz ist ein empirisches Gesetz, das mit Hilfe mathematischer Statistik formuliert wurde, benannt nach dem Linguisten George Kingsley Zipf, der es als erster vorgeschlagen hat.
Das Zipf-Gesetz besagt, dass bei einer großen Stichprobe von verwendeten Wörtern die Häufigkeit eines jeden Wortes umgekehrt proportional zu seinem Rang in der Häufigkeitstabelle ist. Die Wortzahl n hat also eine Häufigkeit, die proportional zu 1/n ist.
So wird das häufigste Wort etwa doppelt so oft vorkommen wie das zweithäufigste Wort, dreimal so oft wie das dritthäufigste Wort usw. In einer Stichprobe von Wörtern in der englischen Sprache beispielsweise macht das am häufigsten vorkommende Wort, "the", fast 7% aller Wörter aus (69.971 von etwas mehr als 1 Million). Getreu dem Zipfschen Gesetz macht das zweithäufigste Wort "von" etwas mehr als 3,5% der Wörter aus (36.411 Vorkommen), gefolgt von "und" (28.852). Es werden nur etwa 135 Wörter benötigt, um die Hälfte der Stichprobe von Wörtern in einer großen Stichprobe zu erfassen.
Dasselbe Verhältnis findet sich in vielen anderen Rankings, die nicht mit der Sprache zusammenhängen, wie z.B. die Bevölkerungszahlen von Städten in verschiedenen Ländern, Unternehmensgrößen, Einkommensranglisten usw. Das Erscheinen der Verteilung in den Ranglisten der Städte nach Einwohnerzahl wurde erstmals 1913 von Felix Auerbach bemerkt.
Es ist nicht bekannt, warum das Zipf-Gesetz für die meisten Sprachen gilt.