Leitfragen
Was ist der Unterschied zwischen unserer Definition und der relativen Häufigkeit, die populär meist für Wahrscheinlichkeit gehalten wird?
Wodurch wird eine Funktion zum Wahrscheinlichkeitsmaß? Welche dieser Forderungen sind eher stark, welche eher schwach?
Was sind die Unterschiede zwischen Wahrscheinlichkeitsraum und Wahrscheinlichkeitsmaß, zwischen Ereignis und Ergebnis?
Intuitiv: Wenn ein Experiment bei 100 Versuchen im Mittel 30 Mal ein bestimmtes Ergebnis liefert, würden wir sagen, dieses Ergebnis habe eine Wahrscheinlichkeit von 30∕100, der relativen Häufigkeit. Das ist axiomatisch schwierig zu fassen, deshalb Zugang von der ”anderen Seite“.
Eine Ergebnismenge (auch Stichprobenraum, sample space) Ω ist eine endliche (tatsächlich darf sie auch abzählbar unendlich sein, aber um solche mathematischen Feinheiten kümmern wir uns erstmal nicht) Menge von Ergebnissen (Stichproben, Realisierungen, sample points, basic outcomes) eines Experiments. Ein Experiment kann dabei ziemlich viel sein: Das Werfen eines Würfels, die Bestimmung des Typs eines Worts, die Frage, ob ein Pixel schwarz ist oder nicht usf.
Teilmengen von Ω heißen Ereignis (event). Das Ereignis A⊂Ω ist eingetreten, wenn das Experiment ein Ergebnis ω∈A geliefert hat.
Sind A, B zwei Ereignisse, so ist
Wenn A∩B= ∅, sind A und B unvereinbar.
Die Menge aller Ereignisse ist ℘(Ω). Eine Abbildung
Vorsicht: Es gibt auch eine Verteilungsfunktion (distribution function) – die ist aber was ganz anderes. Unsere Verteilungen heißen auf Englisch Distribution oder, wenn Ω etwas wie die reellen Zahlen ist, auch gern probability density function (PDF, Wahrscheinlichkeitsdichte).
P(A) heißt Wahrscheinlichkeit von A. Das Paar (Ω,P) heißt Wahrscheinlichkeitsraum (probability space). Wahrscheinlichkeitsräume sind unsere Modelle für Experimente. In der Sprachverarbeitung ist die Wahl des geeigneten Modells häufig die schwierigste Aufgabe überhaupt. Einerseits ist klar, dass Sprache mit Zufallsexperimenten zunächst wenig zu tun hat, andererseits müssen meist eher gewagte Annahmen gemacht werden, um ein gegebenes Phänomen überhaupt einer statistischen Analyse zugänglich zu machen. Dass statistische Verfahren in der Sprachverarbeitung häufig so gut funktionieren, ist eigentlich eher überraschend.
In einem realen Experiment ist die absolute Häufigkeit eines Ereignisses kn(A) die Zahl der Versuchsausgänge in A in den ersten n Versuchen, die relative Häufigkeit hn(A) = kn(A)∕n. Vorerst postulieren wir keinerlei Zusammenhang zwischen hn und P.
Ihr solltet euch wenigstens an den rötlich unterlegten Aufgaben versuchen
(1)
Was ist der Stichprobenraum für das Werfen eines (fairen, sechsseitigen) Würfels, für das Werfen zweier Würfel, für Sprache (die aus Buchstaben, Wörtern, Phonen, Texten oder was immer ihr wollt bestehen kann). Was sind darin jeweils denkbare Ereignisse?
(2)
Nehmt an, wir modellieren Sprache als ein Zufallsexperiment über dem Stichprobenraum aller Wörter. Wie sieht das Ereignis ” Wort fängt mit A an“ aus?
(3)
Was ist der Unterschied zwischen dem Ereignis ” 1 fällt“ und dem Ergebnis ” 1 fällt“ beim Würfel?
(4)
Sucht euch ein paar Leute und macht mit diesen folgendes Experiment: Alle würfeln 10 Mal (zwecks intellektueller Hygiene am Besten mit dem selben Würfel) und rechnen unter der naiven (und falschen) Annahme, dass Wahrscheinlichkeit die relative Häufigkeit eines Ereignisses sei, die Verteilung ” ihres“ Würfels aus. Was stellt ihr fest? Was folgt daraus über die Annahme über das Verhältnis von Wahrscheinlichkeit und relativer Häufigkeit?