Leitfragen
Was ist die Normalverteilung und warum taucht sie häufig auf?
Sei Ω = {u,d} der Stichprobenraum eines Bernoulli-Experiments, sei P(u) = p und P(d) = q= 1 -p. Wir betrachten den
Stichprobenraum = ⊗
i=1nΩ, also etwa n Münzwürfe. ⊗
soll dabei für ein mehrfaches kartesisches Produkt stehen, ganz,
wie ∑
für eine mehrfache Summe steht. Wir haben also einfach ein Produktexperiment von Bernoulliexperimenten.
Auf diesem Raum betrachten wir X, ” Zahl der u in
∈
“. Die Verteilung von X heißt Binomialverteilung (oder
Bernoulli-Verteilung):
Das lässt sich so einsehen: Jedes Element des Ereignisses A=” genau k-mal u in “ hat die Wahrscheinlichkeit pkqn-k. Es bleibt die
Frage nach der Kardinalität dieses Ereignisses. Effektiv ziehen wir k Positionen der u ohne Zurücklegen aus n Kugeln, wobei die
Reihenfolge keine Rolle spielt, was unserem Modell ΩIII entspricht. Damit ist |A|= (n
k)
Es gilt E(X) = np und Var(X) = npq. E(X) für n= 1 ist natürlich p, wegen der Linearität des Erwartungswerts summiert sich das einfach n Mal. Var(X) für n= 1 ist
Die Standard-Normalverteilung ist definiert als
Es handelt sich hier um eine Dichte, x ist reell. Mit solchen Dichten können wir eigentlich nicht umgehen, weil unsere Wahrscheinlichkeitsräume und damit auch Zufallsvariablen immer diskret waren und das auch bleiben sollen. Wir ignorieren diese Probleme so gut wie möglich.
Diese ” Gaußkurve“ sieht so aus:
Es gilt der Zentrale Grenzwertsatz: Seien Xi, i= 1,…,n i.i.d. Zufallsvariable mit E(Xi) = 0 und Var(Xi) = 1. Sei
Sn = ∕
. Dann gilt
Der Beweis ist relativ schwierig. Die Einschränkung für die Zufallsvariablen ist nicht wichtig, man sie kann (fast) immer durch Einfühung einer neuen Zufallsvariablen erzwingen, etwa durch Subtraktion des Erwartungswerts und Division durch Standardabweichung. Damit besagt dieser Satz im Wesentlichen, dass alle Experimente, wenn ich sie nur oft genug hintereinander ausführe, schließlich auf normalverteilte Zufallsvariablen führen werden.
Vorsicht: Der Satz macht keine Aussage darüber, wie schnell das geht. Solange n ” klein“ ist (und ” klein“ kann durchaus noch drei Dezillionen sein), kann die tatsächliche Verteilung von der Normalverteilung beliebig abweichen.
Die Funktion ∫ -∞xφ(t)dt, die angibt, wie viel ” Wahrscheinlichkeit“ unterhalb von x liegt, heißt Verteilungsfunktion. Verteilungsfunktionen sind vor allem wichtig, wenn man mit kontinuierlichen Verteilungen arbeitet; die Verteilung (hier auch Dichte) ergibt sich als Ableitung der Verteilungsfunktion.
Standard-Normalverteilung heißt die oben vorgestellte Verteilung, weil sie Erwartungswert Null und Varianz 1 hat. Normalverteilungen zu beliebigen Erwartungswerten μ und Varianzen σ2 werden durch die Funktionen
dargestellt.
Ihr solltet euch wenigstens an den rötlich unterlegten Aufgaben versuchen
(1)
Seht nach, ob ihr aus einer Folge unabhängiger Bernoulli-Experimente wirklich eine Binomialverteilung erhaltet. Das Bernoulli-Experiment soll das Werfen einer Münze sein. Werft sie vier Mal und zählt, wie oft ” Zahl“ kommt. Wiederholt das fünf Mal. Kombiniert eure Ergebnisse mit denen eurer Mitstudis. Wie gut passt euer Gesamtergebnis auf die für dieses Experiment zu erwartende Binomialverteilung? Wie gut auf eine Gaußverteilung, die diese Binomialverteilung annähert?
(2)
Holt euch von der Webseite zur Vorlesung das Programm gaussBinomi.py, das die Binomialverteilung für verschiedene Parameter mit der ihr entsprechenden Gaußverteilung vergleicht.
Lasst das Programm laufen und verändert systematisch die Parameter der Bernoulli-Verteilung. Beobachtet, wie sich die entsprechende Gauss-Verteilung anpasst und wie gut die Übereinstimmung ist. Das Programm wird mit folgenden Tasten bedient:
(3)
Macht euch klar, warum die Gaussverteilung, die wir hier verwenden, die ” zu erwartende“ für die entsprechende Bernoulliverteilung ist. Die Antwort dazu steht in GaussVsBernComparer.setParameters
(4)
Beobachtet genau, was für kleine p und nicht zu große n um die Null rum passiert. Im Allgemeinen wird das Kriterium, ab wann Gauss eine gute Näherung für Bernoulli ist, in Abhängigkeit des Produkts np gegeben. Wo würdet ihr die Grenze setzen?
Anmerkung: Das rücksichtslose (und noch dazu schreibende) Reinpfuschen in die Attribute von Klassen, wie ich das hier bei den Funktionen mache, ist in der Realität natürlich verboten und hier nur durch die Faulheit des Lehrenden entschuldigbar.
(5)
Sei X die Zufallsvariable ” Ordnungszahl des ersten Zeichens eines Wortes“. Wir ziehen jetzt die Wörter eines Textes in ihrer Reihenfolge und rechnen P(X= 1) (also ” Das erste Zeichen ist ein a“) aus. Wird das eine Bernoulliverteilung sein? Warum (nicht)?