Digital Garden
Maths
Probability & Statistics
Discrete Random Variables

Discrete Random Variables

Zufallsvariablen

Eine Zufallsvariable XX ist eine Funktion welche jedem Elementarereignis ωΩ\omega \in \Omega genau eine reele Zahl zuordnet. Wir unterscheiden noch dabei, ob eine Zufallsvariable diskret oder stetig ist. Hier werden wir diskrete Zufallsvariablen anschauen später werden wir noch stetige dazu nehmen.

Diskrete Zufallsvariablen

Eine diskrete Zufallsvariable kann endlich viele oder abzählbar unendliche viele Werte annehmen. Gute Beispiel dafür sind Ergebnisse beim Würfeln, Anzahl Münzwurfe bis zum ersten Mal Kopf etc.

Eine gute Videoerklärung dazu gibt es auch hier (opens in a new tab).

Dichte/Wahrscheinlichkeits-Funktion

Bei einer diskreten Zufallsvariable gehört zu jedem Wert xix_i eine bestimmte Wahrscheinlichkeit P(X=xi)P(X=x_i). Diese Beziehung lässt sich gut mit einer sogenannten Verteilungstabelle oder einem Stabsdiagramm (Wahrscheinlichkeitsdiagramm) visualisieren, dabei gilt

f(xi)=pi wobei pi[0,1]f(x_i)=p_i \text{ wobei } p_i \in [0,1]

Eine Dichtefunktion ist auch normiert, das heist, dass alle Wahrscheinlichkeiten der verschiedenen Werte xix_i der Zufallsvariable XX zusammen 1 ergeben.

xiXf(xi)=1\sum_{x_i \in X}{f(x_i)}=1

Verteilungstabelle:

verteilungsTabelle

Stabsdiagramm:

stabdiagram

mehr dazu findest du hier (opens in a new tab).

Verteilungsfunktion

Die Verteilungsfunktion F(x)F(x) einer Zufallsvariable XX ist die Wahrscheinlichkeit dafür, dass die Zufallsvariable XX einen Wert, der kleiner oder gleich xx annimmt.

F(x)=P(Xx)=xixf(xi)F(x)=P(X \leq x) = \sum_{x_i \leq x}{f(x_i)}

Die Wahrscheinlichkeit bei einer diskreten Zufallsvariable P(a<Xb)P(a < X \leq b) ist gegeben durch F(b)F(a)F(b)-F(a)

verteilungsFunktion

mehr dazu findest du hier (opens in a new tab).

Erwartungswert

Der Erwartungswert ist der Wert, den wir im Durchschnitt erwarten können und ist definiert als

E(X)=xiXxif(xi)=xiXxiP(X=xi)E(X)=\sum_{x_i \in X}{x_i\cdot f(x_i)}=\sum_{x_i \in X}{x_i \cdot P(X=x_i)}
Beispiel Erwartungswert würfeln

Beim Wurf eines Würfels mit X=X=Augenzahl ist

E(X)=3.5E(X)=3.5

Erwartungswerte addieren

E(X+Y)=E(X)+E(Y)E(X+Y) = E(X)+E(Y)
Beispiel Erwartungswerte addieren

Wir werfen eine Münze, solange bis zum ersten Mal Kopf, dann würfeln wir, solange bis eine 6 kommt.

Wie hoch ist die totale erwartete Anzahl würfe?

XGeo(1/2),YGeo(1/6),E(X+Y)=E(X)+E(Y)=8X \sim Geo(1/2), Y \sim Geo(1/6), E(X+Y)=E(X)+E(Y)=8

Erwartungswert, Skalar multiplizieren

E(aX)=aE(X)E(aX) = aE(X)

Erwartungswert, Skalar addieren

E(X+c)=E(X)+cE(X+c) = E(X)+c

Erwartungswert, Funktion anwenden

E(g(X))=xiXg(xi)P(X=xi)E(g(X))=\sum_{x_i \in X}{g(x_i)\cdot P(X=x_i)}

Für all Funktionen g:RRg: \mathbb{R} \mapsto \mathbb{R}

Beispiel Erwartungswert Funktion anwenden

Ein Computerhändler hat 3 Computer für 500 CHF pro Stück gekauft, die er für 1000 CHF vor Neujahr verkaufen will.

Der händler weiss, dass er alle nicht verkauften Computer nach Neujahr garantiert für 200 CHF an ein Unternehmen verkaufen kann.

Der Händler denkt, wenn XX die Anzahl verkaufte Computer entspricht, dass er die folgende Verteilung hat.

Varianz

Wenn wir den Erwartungswert von XX als μ\mu beschreiben, dann ist die Varianz gegeben durch

V(X)=σ2(X)=xiX(xiμ)2f(xi)=xiX(xiμ)2P(X=xi)V(X)=\sigma^2(X)=\sum_{x_i \in X}{(x_i - \mu)^2 \cdot f(x_i)}=\sum_{x_i \in X}{(x_i - \mu)^2 \cdot P(X=x_i)}

oder auch in kurz

V(X)=σ2(X)=E(X2)E(X)2V(X) = \sigma^2(X) = E(X^2) - E(X)^2

Varianz, Skalar addieren

V(X+c)=V(X)V(X+c) = V(X)

Varianz, Skalar multiplizieren

V(aX)=a2V(X)V(aX)=a^2V(X)

Standardabweichung

Die Standardabweichung ist gegeben durch

σ(X)=V(X)\sigma(X)=\sqrt{V(X)}

Diskrete Verteilungen

Nun schauen wir uns ein paar Verteilungen, an die häufig vorkommen, wenn man mit diskreten Zufallsvariablen arbeitet.

Binomial-Verteilung

Die Binomialverteilung der Zufallsvariable XX ist die Anzahl Treffer bei der nn-maligen unabhängigen Durchführung eines Experiments mit 2 Elementarereignisse, Treffer und kein Treffer wobei pp die Wahrscheinlichkeit für einen Treffer ist.

  • Wir schreiben dann XBin(n,p)X \sim Bin(n,p)
  • Die Dichtefunktion von XX ist f(k)=(nk)pk(1p)nkf(k)=\binom{n}{k}p^k(1-p)^{n-k} wobei kk die Anzahl benötigter treffer ist.
  • E(X)=npE(X) = n \cdot p
  • V(X)=np(1p)V(X) = n \cdot p \cdot (1-p)

In Matlab haben wir die Funktionen:

  • Dichtefunktion binopdf(k,n,p)binopdf(k,n,p) wobei pdfpdf English ist und für "probability density function" steht
  • Verteilungsfunktion binocdf(k,n,p)binocdf(k,n,p) wobei cdfcdf English ist und für "cumulative distribution function" steht

mehr dazu findest du hier (opens in a new tab).

Beispiel Binomialverteilung

Ein Multiple Choice Test besteht aus 12 Fragen mit je 4 möglichen Antworten wovon immer genau 1 richtig ist. Der Test wird durch Erraten ausgefüllt. Wie gross ist die Wahrscheinlichkeit für mehr als 8 richtige Antworten?

XBin(12,1/4)X \sim Bin(12,1/4)

Mit P(X9)=P(X=9)+...+P(X=12)=1P(x8)P(X \geq 9) = P(X=9)+...+P(X=12)=1 - P(x \leq 8)

Und somit dann 1binocdf(8,12,1/4)1-binocdf(8,12,1/4)

Bernoulli-Verteilung

Die Bernoulli-Verteilung ist eine spezielle Form der Binomialverteilung wobei n=1n=1. Wir können dann alles ein wenig vereinfachen.

  • Wir schreiben dann XB(p)X \sim B(p)
  • Die Dichtefunktion von XX ist f(0)=1p,f(1)=pf(0)= 1-p, f(1)=p
  • E(X)=pE(X) = p
  • V(X)=p(1p)V(X) = p \cdot (1-p)

mehr dazu findest du hier (opens in a new tab).

Geometrische-Verteilung

Die Geometrische Verteilung der Zufallsvariable XX ist die Anzahl der Versuche bis zum ersten Treffer bei der wiederholten unabhängigen Durchführung eines Experiments mit 2 Elementarereignisse, Treffer und kein Treffer wobei pp die Wahrscheinlichkeit für einen Treffer ist.

  • Wir schreiben dann XGeo(p)X \sim Geo(p)
  • Die Dichtefunktion von XX ist f(k)=(nk)p(1p)k1f(k)=\binom{n}{k}p\cdot (1-p)^{k-1} wobei kk bedeutet, dass die ersten k1k-1 Versuche kein Treffer waren aber der kk-te Versuch ein Treffer ist.
  • E(X)=1pE(X) = \frac{1}{p}
  • V(X)=1pp2V(X) = \frac{1-p}{p^2}

In Matlab haben wir die Funktionen:

  • Dichtefunktion: geopdf(k1,p)geopdf(k-1,p)
  • Verteilungsfunktion geoocdf(k1,p)geoocdf(k-1,p)

mehr dazu findest du hier (opens in a new tab).

Beispiel Geometrische Verteilung

Wir würfeln solange bis eine sechs kommt. Wie hoch ist die Wahrscheinlichkeit, dass dies im zehnten Versuch passiert?

XGeo(1/6)X \sim Geo(1/6) Mit P(X=10)=(56)916=geopdf(9,1/6)3.2P(X = 10) = (\frac{5}{6})^9 \cdot \frac{1}{6} = geopdf(9,1/6) \approx 3.2%

Hypergeometrische-Verteilung

Die Hypergeometrische Verteilung der Zufallsvariable XX ist die Verteilung, die beim nn-maligen Ziehen ohne Zurücklegen und ohne Reihenfolge aus einer Urne mit NN Kugeln, von denen MM eine spezielle Eigenschaft haben und wo die Anzahl der gezogenen Kugeln mit dieser speziellen Eigenschaft gezählt werden.

  • Wir schreiben dann XHyp(N,M,n)X \sim Hyp(N,M,n)
  • Die Dichtefunktion von XX ist f(k)=(Mk)(NMnk)(Nn)f(k)=\binom{M}{k} \cdot \frac{\binom{N-M}{n-k}}{ \binom{N}{n}} wobei NN die Gesamtanzahl der Kugeln ist, MM die Anzahl mit der speziellen Eigenschaft. nn ist dann der Umfang der Stichprobe also die Anzahl der entnommenen Kugeln und kk die Anzahl angestrebte Kugeln mit der speziellen Eigenschaft.
  • E(X)=nMNE(X) = n \cdot \frac{M}{N}
  • V(X)=nMN(1MN)NnN1V(X) = n \cdot \frac{M}{N} \cdot (1 - \frac{M}{N}) \cdot \frac{N-n}{N-1}

In Matlab haben wir die Funktionen:

  • Dichtefunktion: hygepdf(k,N,M,n)hygepdf(k,N,M,n)
  • Verteilungsfunktion hygecdf(k,N,M,n)hygecdf(k,N,M,n)

mehr dazu findest du hier (opens in a new tab).

Beispiel Hypergeometrische Verteilung

Das perfekte Beiepiel dafür ist Lotto, wobei wir 49 nummerierte Kugeln haben, 6 davon werden gezogen, welche in diesem Falle unsere spezielle Kugeln sind. Wir dürfen 6 Zahlen aufschreiben, also sind das unsere Kugeln die wir herausnehmen ohne zurücklegen oder die Reihenfolge zu beachten. Was ist nun die Wahrscheinlichkeit das wir 4 von den 6 richtig haben?

XHyp(49,6,6)X \sim Hyp(49,6,6) hygepdf(4,49,6,6)=6456658960.09686hygepdf(4,49,6,6) = \frac{645}{665896} \approx 0.09686%

Poisson-Verteilung

Die Poisson-Verteilung kommt bei Zufallsvariablen zum Einsatz, welche die Anzahl der Ereignisse einer bestimmten Art in einem Zeit- und/oder Ortsintervall beschreiben die Anzahl dieses Ereignisses entspricht λ\lambda. Diese Ereignisse sind oftmals "seltene" Ereignisse z.B.

  • XX Anzahl Druckfehler auf einer Seite eines Buchs
  • XX Anzahl Unfälle an einem Wochenende in einem Skigebiet
  • XX Anzahl falsch gewählter Telefon-Nummern an einem Tag
  • XX Anzahl Erdbeben in einem Jahr in einer bestimmten Region.

Dies sind nur ein paar Beispiele der Poisson-Verteilung, sie ist einer der wichtigsten Verteilungen die wir kennen.

  • Wir schreiben dann XPoi(λ)X \sim Poi(\lambda)
  • Die Dichtefunktion von XX istf(k)=λkk!eλf(k)=\frac{\lambda^k}{k!} \cdot e^{-\lambda}
  • E(X)=λE(X) = \lambda
  • V(X)=λV(X) =\lambda

In Matlab haben wir die Funktionen:

  • Dichtefunktion: poisspdf(k,λ\lambda)
  • Verteilungsfunktion poisscdf(k,λ\lambda)

mehr dazu findest du hier (opens in a new tab)

Beispiel Poisson-Verteilung

Der Druchschnitt der Anzahl Druckfehler pro Seite ist 0.4. Dann ist XPoi(0.4)X \sim Poi(0.4) ein gutes Modell. Damit erhalten wir:

  • P(X=0)=poisspdf(0,0.4)=67.03P(X=0)=poisspdf(0,0.4)=67.03%
  • P(X=2)=poisspdf(2,0.4)=5.36P(X=2)=poisspdf(2,0.4)=5.36%