Wahrscheinlichkeitsdichtefunktion

Hilfsmittel zur Beschreibung einer stetigen Wahrscheinlichkeitsverteilung

Eine Wahrscheinlichkeitsdichtefunktion, oft kurz Dichtefunktion, Wahrscheinlichkeitsdichte, Verteilungsdichte oder nur Dichte genannt und mit WDF oder englisch PDF (probability density function) abgekürzt, ist eine spezielle reellwertige Funktion in der Stochastik. Dort dienen die Wahrscheinlichkeitsdichtefunktionen zur Konstruktion von Wahrscheinlichkeitsverteilungen mithilfe von Integralen sowie zur Untersuchung und Klassifikation von Wahrscheinlichkeitsverteilungen.

Die Wahrscheinlichkeit, dass eine Zufallsvariable einen Wert zwischen und annimmt, entspricht dem Inhalt der Fläche unter dem Graph der Wahrscheinlichkeits­dichtefunktion .

Im Gegensatz zu Wahrscheinlichkeiten können Wahrscheinlichkeitsdichtefunktionen auch Werte über eins annehmen. Die Konstruktion von Wahrscheinlichkeitsverteilungen über Wahrscheinlichkeitsdichtefunktionen beruht auf der Idee, dass die Fläche zwischen der Wahrscheinlichkeitsdichtefunktion und der x-Achse von einem Punkt bis zu einem Punkt der Wahrscheinlichkeit entspricht, einen Wert zwischen und zu erhalten. Nicht der Funktionswert der Wahrscheinlichkeitsdichtefunktion ist somit relevant, sondern die Fläche unter ihrem Funktionsgraphen, also das Integral.

In einem allgemeineren Kontext handelt es sich bei Wahrscheinlichkeitsdichtefunktionen um Dichtefunktionen (im Sinne der Maßtheorie) bezüglich des Lebesgue-Maßes.

Während im diskreten Fall Wahrscheinlichkeiten von Ereignissen durch Aufsummieren der Wahrscheinlichkeiten der einzelnen Elementarereignisse berechnet werden können (ein idealer Würfel zeigt beispielsweise jede Zahl mit einer Wahrscheinlichkeit von ), gilt dies nicht mehr für den stetigen Fall. Beispielsweise sind zwei Menschen kaum exakt gleich groß, sondern nur bis auf Haaresbreite oder weniger. In solchen Fällen sind Wahrscheinlichkeitsdichtefunktionen nützlich. Mit Hilfe dieser Funktionen lässt sich die Wahrscheinlichkeit für ein beliebiges Intervall – beispielsweise eine Körpergröße zwischen 1,80 m und 1,81 m – bestimmen, obwohl unendlich viele Werte in diesem Intervall liegen, von denen jeder einzelne die Wahrscheinlichkeit hat.

Definition

Bearbeiten

Wahrscheinlichkeitsdichten können auf zwei Arten definiert werden: einmal als Funktion, aus der sich eine Wahrscheinlichkeitsverteilung konstruieren lässt, das andere Mal als Funktion, die aus einer Wahrscheinlichkeitsverteilung abgeleitet wird. Der Unterschied ist also die Richtung der Herangehensweise.

Zur Konstruktion von Wahrscheinlichkeitsmaßen

Bearbeiten

Gegeben sei eine reelle Funktion

 , für die gilt:
  •   ist nichtnegativ, das heißt,   für alle  .
  •   ist integrierbar.
  •   ist normiert in dem Sinne, dass
 .

Dann heißt   eine Wahrscheinlichkeitsdichtefunktion und definiert durch

 

eine Wahrscheinlichkeitsverteilung auf den reellen Zahlen.

Aus Wahrscheinlichkeitsmaßen abgeleitet

Bearbeiten

Gegeben sei eine Wahrscheinlichkeitsverteilung   oder eine reellwertige Zufallsvariable  .

Existiert eine reelle Funktion  , sodass für alle  

 

bzw.

 

gilt, so heißt   die Wahrscheinlichkeitsdichtefunktion von   bzw. von  .

Beispiele

Bearbeiten
 
Wahrscheinlichkeitsdichtefunktionen der Exponentialverteilung für verschiedene Parameter.

Eine Wahrscheinlichkeitsverteilung, die über eine Wahrscheinlichkeitsdichtefunktion definiert werden kann, ist die Exponentialverteilung. Sie besitzt die Wahrscheinlichkeitsdichtefunktion

 

Hierbei ist   ein reeller Parameter. Insbesondere überschreitet die Wahrscheinlichkeitsdichtefunktion für Parameter   an der Stelle   den Funktionswert  , wie in der Einleitung beschrieben. Dass es sich bei   wirklich um eine Wahrscheinlichkeitsdichtefunktion handelt, folgt aus den elementaren Integrationsregeln für die Exponentialfunktion, Positivität und Integrierbarkeit der Exponentialfunktion sind klar.

Eine Wahrscheinlichkeitsverteilung, aus der eine Wahrscheinlichkeitsdichtefunktion abgeleitet werden kann, ist die stetige Gleichverteilung auf dem Intervall  . Sie ist definiert durch

  für   und  

Außerhalb des Intervalls erhalten alle Ereignisse die Wahrscheinlichkeit null. Gesucht ist nun eine Funktion  , für die

 

gilt, falls  . Die Funktion

 

erfüllt dies. Sie wird dann außerhalb des Intervalles   durch die Null fortgesetzt, um problemlos über beliebige Teilmengen der reellen Zahlen integrieren zu können. Eine Wahrscheinlichkeitsdichtefunktion der stetigen Gleichverteilung wäre somit

 

Ebenso wäre die Wahrscheinlichkeitsdichtefunktion

 

möglich, da sich beide nur auf einer Lebesgue-Nullmenge unterscheiden und beide den Anforderungen genügen. Man könnte beliebig viele Wahrscheinlichkeitsdichtefunktionen allein durch Abwandlung des Wertes an einem Punkt erzeugen. Faktisch ändert dies nichts an den Eigenschaft der Funktion, Wahrscheinlichkeitsdichtefunktion zu sein, da das Integral diese kleinen Modifikationen ignoriert.

Weitere Beispiele für Wahrscheinlichkeitsdichten sind in der Liste univariater Wahrscheinlichkeitsverteilungen zu finden.

Bemerkungen zur Definition

Bearbeiten

Streng genommen handelt es sich bei dem Integral in der Definition um ein Lebesgue-Integral bezüglich des Lebesgue-Maßes   und es müsste dementsprechend als   geschrieben werden. In den meisten Fällen ist das herkömmliche Riemann-Integral aber ausreichend, weshalb hier   geschrieben wird. Nachteil des Riemann-Integrals auf struktureller Ebene ist, dass es sich nicht wie das Lebesgue-Integral in einen allgemeinen maßtheoretischen Rahmen einbetten lässt. Für Details zur Beziehung von Lebesgue- und Riemann-Integral siehe Riemann- und Lebesgue-Integral.

Manche Autoren unterscheiden die beiden obigen Herangehensweisen auch namentlich. So wird die Funktion, die zur Konstruktion von Wahrscheinlichkeitsverteilungen verwendet wird, dann Wahrscheinlichkeitsdichte genannt, die aus einer Wahrscheinlichkeitsverteilung abgeleitete Funktion hingegen Verteilungsdichte.[1]

Existenz und Eindeutigkeit

Bearbeiten

Konstruktion von Wahrscheinlichkeitsverteilungen

Bearbeiten

Das in der Definition beschriebene   liefert wirklich eine Wahrscheinlichkeitsverteilung. Denn aus der Normiertheit folgt  . Dass die Wahrscheinlichkeiten alle positiv sind, folgt aus der Positivität der Funktion. Die σ-Additivität folgt aus dem Satz von der majorisierten Konvergenz mit der Wahrscheinlichkeitsdichtefunktion als Majorante und der Funktionenfolge

 ,

mit paarweise disjunkten Mengen  .

Hierbei bezeichnet   die charakteristische Funktion auf der Menge  .

Dass die Wahrscheinlichkeitsverteilung eindeutig ist, folgt aus dem Maßeindeutigkeitssatz und der Schnittstabilität des Erzeugers der Borelschen σ-Algebra, hier das Mengensystem der abgeschlossenen Intervalle.

Aus einer Wahrscheinlichkeitsdichtefunktion abgeleitet

Bearbeiten

Die zentrale Aussage über die Existenz einer Wahrscheinlichkeitsdichtefunktion zu einer vorgegebenen Wahrscheinlichkeitsverteilung ist der Satz von Radon-Nikodým:

Die Wahrscheinlichkeitsverteilung   besitzt genau dann eine Wahrscheinlichkeitsdichtefunktion, wenn sie absolut stetig bezüglich des Lebesgue-Maßes   ist. Das bedeutet, dass aus   immer   folgen muss.

Es kann durchaus mehr als eine solche Wahrscheinlichkeitsdichtefunktion existieren, aber diese unterscheiden sich nur auf einer Menge vom Lebesgue-Maß 0 voneinander, sind also fast überall identisch.

Somit können diskrete Wahrscheinlichkeitsverteilungen keine Wahrscheinlichkeitsdichtefunktion besitzen, denn für sie gilt immer   für ein passendes Element  . Solche Punktmengen besitzen aber immer das Lebesgue-Maß 0, somit sind diskrete Wahrscheinlichkeitsverteilungen nicht absolut stetig bezüglich des Lebesgue-Maßes.

Berechnung von Wahrscheinlichkeiten

Bearbeiten

Grundlage

Bearbeiten

Die Wahrscheinlichkeit für ein Intervall lässt sich mit der Wahrscheinlichkeitsdichte   berechnen als

 .

Diese Formel gilt ebenso für die Intervalle  ,   und  , denn es liegt in der Natur stetiger Zufallsvariablen, dass die Wahrscheinlichkeit für das Annehmen eines konkreten Wertes   ist. Formal ausgedrückt gilt:

 
 

Für komplexere Mengen kann die Wahrscheinlichkeit analog durch Integrieren über Teilintervalle ermittelt werden. Allgemein erhält die Wahrscheinlichkeit die Form

 .

Hilfreich ist oft die σ-Additivität der Wahrscheinlichkeitsverteilung. Das bedeutet: Sind   paarweise disjunkte Intervalle und ist

 

die Vereinigung all dieser Intervalle, so gilt

 .

Dabei sind die Intervalle von der Form  . Dies gilt auch für endlich viele Intervalle. Ist somit die Wahrscheinlichkeit von disjunkten Intervallen zu berechnen, so kann man entsprechend zuerst die Wahrscheinlichkeit jedes einzelnen Intervalles berechnen und diese Wahrscheinlichkeiten dann aufsummieren.

Beispiel: Zeit zwischen Anrufen in einem Callcenter

Bearbeiten

Die Zeit zwischen zwei Anrufen in einem Callcenter ist erfahrungsgemäß ungefähr exponentialverteilt zu einem Parameter   und besitzt demnach die Wahrscheinlichkeitsdichtefunktion

 

vergleiche auch den Abschnitt Beispiele und den Artikel Poisson-Prozess. Dabei ist die x-Achse mit einer beliebigen Zeiteinheit versehen (Stunden, Minuten, Sekunden). Der Parameter   entspricht dann der mittleren Anzahl von Anrufen pro Zeiteinheit.

Die Wahrscheinlichkeit, dass der nächste Anruf ein bis zwei Zeiteinheiten nach dem vorangegangenen eintritt, ist dann

 .

Angenommen, eine Servicekraft im Callcenter benötigt fünf Zeiteinheiten für eine Pause. Die Wahrscheinlichkeit, dass sie keinen Anruf verpasst, ist gleich der Wahrscheinlichkeit, dass der nächste Anruf zum Zeitpunkt fünf oder später eingeht. Es ist damit

 

Eigenschaften

Bearbeiten

Zusammenhang von Verteilungsfunktion und Dichtefunktion

Bearbeiten
 
Wahrscheinlichkeitsdichte der Lognormalverteilung (mit  )
 
Kumulative Verteilungsfunktion der Lognormalverteilung (mit  )

Die Verteilungsfunktion einer Zufallsvariablen   oder einer Wahrscheinlichkeitsverteilung   mit Wahrscheinlichkeitsdichtefunktion   beziehungsweise   wird als Integral über die Dichtefunktion gebildet:

 
 

Dies folgt direkt aus der Definition der Verteilungsfunktion. Die Verteilungsfunktionen von Zufallsvariablen oder Wahrscheinlichkeitsverteilungen mit Wahrscheinlichkeitsdichtefunktion sind somit immer stetig.

Wenn die Verteilungsfunktion   differenzierbar ist, ist ihre Ableitung eine Dichtefunktion der Verteilung:

 

Dieser Zusammenhang gilt auch dann noch, wenn   stetig ist und es höchstens abzählbar viele Stellen   gibt, an denen   nicht differenzierbar ist; welche Werte man an diesen Stellen für   verwendet, ist unerheblich.

Allgemein existiert eine Dichtefunktion genau dann, wenn die Verteilungsfunktion   absolut stetig ist. Diese Bedingung impliziert unter anderem, dass   stetig ist und fast überall eine Ableitung besitzt, die mit der Dichte übereinstimmt.

Es ist jedoch zu beachten, dass es Verteilungen wie die Cantor-Verteilung gibt, die eine stetige, fast überall differenzierbare Verteilungsfunktion besitzen, aber dennoch keine Wahrscheinlichkeitsdichte. Fast überall differenzierbar sind Verteilungsfunktionen immer, aber die entsprechende Ableitung erfasst generell nur den absolutstetigen Anteil der Verteilung.

Dichten auf Teilintervallen

Bearbeiten

Die Wahrscheinlichkeitsdichte einer Zufallsvariablen  , die nur Werte in einem Teilintervall   der reellen Zahlen annimmt, kann so gewählt werden, dass sie außerhalb des Intervalls den Wert   hat. Ein Beispiel ist die Exponentialverteilung mit  . Alternativ kann die Wahrscheinlichkeitsdichte als eine Funktion   betrachtet werden, d. h. als eine Dichte der Verteilung auf   bezüglich des Lebesgue-Maßes auf  .

Nichtlineare Transformation

Bearbeiten

Auch im Falle einer nichtlinearen Transformation   gilt für den Erwartungswert   der Zufallsgröße  

 .

Eine Berechnung der Wahrscheinlichkeitsdichtefunktion von   selbst ist also gar nicht nötig.

Faltung und Summe von Zufallsvariablen

Bearbeiten

Für Wahrscheinlichkeitsverteilungen mit Wahrscheinlichkeitsdichtefunktionen kann die Faltung (von Wahrscheinlichkeitsverteilungen) auf die Faltung (von Funktionen) der entsprechenden Wahrscheinlichkeitsdichtefunktionen zurückgeführt werden. Sind   Wahrscheinlichkeitsverteilungen mit Wahrscheinlichkeitsdichtefunktionen   und  , so ist

 .

Hierbei bezeichnet   die Faltung von   und   und   die Faltung der Funktionen   und  . Die Wahrscheinlichkeitsdichtefunktion der Faltung zweier Wahrscheinlichkeitsverteilungen ist somit genau die Faltung der Wahrscheinlichkeitsdichtefunktionen der Wahrscheinlichkeitsverteilungen.

Diese Eigenschaft überträgt sich direkt auf die Summe von stochastisch unabhängigen Zufallsvariablen. Sind zwei stochastisch unabhängige Zufallsvariablen   mit Wahrscheinlichkeitsdichtefunktionen   und   gegeben, so ist

 .

Die Wahrscheinlichkeitsdichtefunktion der Summe ist somit die Faltung der Wahrscheinlichkeitsdichtefunktionen der einzelnen Zufallsvariablen.

Bestimmung von Kennzahlen durch Wahrscheinlichkeitsdichtefunktionen

Bearbeiten

Viele der typischen Kennzahlen einer Zufallsvariablen beziehungsweise einer Wahrscheinlichkeitsverteilung lassen sich bei Existenz der Wahrscheinlichkeitsdichtefunktionen direkt aus dieser herleiten.

Der Modus einer Wahrscheinlichkeitsverteilung bzw. Zufallsvariablen wird direkt über die Wahrscheinlichkeitsdichtefunktion definiert. Ein   heißt ein Modus, wenn die Wahrscheinlichkeitsdichtefunktion   an der Stelle   ein lokales Maximum besitzt.[2] Das bedeutet, es ist

  für alle  

für ein  .

Selbstverständlich kann eine Wahrscheinlichkeitsdichtefunktion auch zwei oder mehrere lokale Maxima besitzen (bimodale Verteilungen und multimodale Verteilungen). Im Falle der Gleichverteilung im obigen Beispielabschnitt besitzt die Wahrscheinlichkeitsdichtefunktion sogar unendlich viele lokale Maxima.

Der Median wird gewöhnlicherweise über die Verteilungsfunktion oder spezieller über die Quantilfunktion definiert. Existiert eine Wahrscheinlichkeitsdichtefunktion, so ist ein Median gegeben durch dasjenige  , für das

 

und

 

gilt. Aufgrund der Stetigkeit der zugehörigen Verteilungsfunktion existiert in diesem Fall   immer, ist aber im Allgemeinen nicht eindeutig.

Erwartungswert

Bearbeiten

Der Erwartungswert einer Zufallsvariable   mit Wahrscheinlichkeitsdichtefunktion   ist gegeben durch

 ,

falls das Integral existiert.

Varianz und Standardabweichung

Bearbeiten

Ist eine Zufallsvariable   mit Wahrscheinlichkeitsdichtefunktion   gegeben, und bezeichnet

 

den Erwartungswert der Zufallsvariablen, so ist die Varianz der Zufallsvariablen gegeben durch

 .

Alternativ gilt auch nach dem Verschiebungssatz

 .

Auch hier gelten die Aussagen wieder nur, wenn alle vorkommenden Integrale existieren. Die Standardabweichung lässt sich dann direkt als die Wurzel aus der Varianz berechnen.

Höhere Momente, Schiefe und Wölbung

Bearbeiten

Mittels der oben angegebenen Vorschrift für nichtlineare Transformationen lassen sich auch höhere Momente direkt berechnen. So gilt für das k-te Moment einer Zufallsvariablen mit Wahrscheinlichkeitsdichtefunktion  

 

und für das k-te absolute Moment

 .

Bezeichnet   den Erwartungswert von  , so ergibt sich für die zentralen Momente

 

und die absoluten zentralen Momente

 .

Über die zentralen Momente können die Schiefe und die Wölbung der Verteilung direkt bestimmt werden, siehe die entsprechenden Hauptartikel.

Beispiel

Bearbeiten

Gegeben sei wieder die Wahrscheinlichkeitsdichtefunktion der Exponentialverteilung zum Parameter  , also

 

Ein Modus der Exponentialverteilung ist immer  . Denn auf dem Intervall   ist die Wahrscheinlichkeitsdichtefunktion konstant gleich null, und auf dem Intervall   ist sie streng monoton fallend, somit ist an der Stelle 0 ein lokales Maximum. Aus der Monotonie folgt dann auch direkt, dass es sich um das einzige lokale Maximum handelt, der Modus ist also eindeutig bestimmt.

Zur Bestimmung des Medians bildet man (da die Wahrscheinlichkeitsdichtefunktion links der Null verschwindet)

 .

Durch kurze Rechnung erhält man

 .

Dieses   erfüllt auch die zweite der beiden Gleichungen im obigen Abschnitt Median und ist somit ein Median.

Für den Erwartungswert erhält man unter Zuhilfenahme der partiellen Integration

 .

Analog lässt sich durch zweimaliges Anwenden der partiellen Integration die Varianz bestimmen.

Weitere Beispiele

Bearbeiten

Durch   für   sowie   für   und   für   ist eine Dichtefunktion   gegeben, denn   ist auf ganz   nichtnegativ und es gilt

 .

Für   gilt:

 

Die Verteilungsfunktion lässt sich schreiben als

 

Ist   eine Zufallsvariable mit der Dichte  , so folgt daher beispielsweise

 .

Für den Erwartungswert von   ergibt sich

 .

Mehrdimensionale Zufallsvariablen

Bearbeiten

Wahrscheinlichkeitsdichten kann man auch für mehrdimensionale Zufallsvariablen, also für Zufallsvektoren definieren. Ist   eine  -wertige Zufallsvariable, so heißt eine Funktion   Wahrscheinlichkeitsdichte (bezüglich des Lebesgue-Maßes) der Zufallsvariablen  , falls gilt

 

für alle Borelmengen  .

Speziell folgt dann für  -dimensionale Intervalle   mit reellen Zahlen  :

 .

Der Begriff der Verteilungsfunktion lässt sich ebenfalls auf mehrdimensionale Zufallsvariablen erweitern. Hier ist in der Notation   das   ein Vektor und das  -Zeichen komponentenweise zu lesen.   ist also hierbei eine Abbildung von   in das Intervall [0,1] und es gilt

 .

Wenn   n-mal stetig differenzierbar ist, erhält man eine Wahrscheinlichkeitsdichte durch partielle Differentiation:

 

Die Dichten   der Komponentenvariablen   lassen sich als Dichten der Randverteilungen durch Integration über die übrigen Variablen berechnen.

Des Weiteren gilt: Ist   eine  -wertige Zufallsvariable mit Dichte, so sind äquivalent:

  •   besitzt eine Dichte der Form  , wobei   die reelle Wahrscheinlichkeitsdichte von   ist.
  • Die Zufallsvariablen   sind unabhängig.

Schätzung einer Wahrscheinlichkeitsdichte anhand diskreter Daten

Bearbeiten
 
Häufigkeitsdichte

Diskret erfasste, aber eigentlich stetige Daten (beispielsweise die Körpergröße in Zentimetern) können als Häufigkeitsdichte repräsentiert werden. Das so erhaltene Histogramm ist eine stückweise konstante Schätzung der Dichtefunktion. Alternativ kann beispielsweise mit sogenannten Kerndichteschätzern die Dichtefunktion durch eine stetige Funktion geschätzt werden. Der dazu verwendete Kern sollte dem erwarteten Messfehler entsprechen.

Grenzübergang

Bearbeiten

Es sei   eine approximierende Zufallsvariable mit den Ausprägungen   und den Wahrscheinlichkeiten  . Der Grenzübergang von einer approximierenden diskreten Zufallsvariable   zu einer stetigen Zufallsvariable   kann durch ein Wahrscheinlichkeitshistogramm modelliert werden. Dazu unterteilt man den Wertebereich der Zufallsvariable   in gleich große Intervalle  . Diese Intervalle mit der Länge   und den entsprechenden Klassenmitten   dienen der Approximation der Dichtefunktion durch das Wahrscheinlichkeitshistogramm, das aus Rechtecken mit der Fläche   besteht, die sich über den Klassenmitten befinden. Für kleine   kann   als Approximation der stetigen Zufallsvariable   aufgefasst werden. Wenn man die Intervalllängen verkleinert, verbessert sich die Approximation von   durch  . Der Grenzübergang   für alle Intervalle führt im Falle der Varianz zu[3]

 

und im Falle des Erwartungswertes zu

 .

Aus dieser Approximation ergibt sich die Definition der Varianz bei stetigen Zufallsvariablen.

Literatur

Bearbeiten
Bearbeiten

Siehe auch

Bearbeiten

Einzelnachweise

Bearbeiten
  1. Georgii: Stochastik. 2009, S. 19, 24.
  2. A.V. Prokhorov: Mode. In: Michiel Hazewinkel (Hrsg.): Encyclopedia of Mathematics. Springer-Verlag und EMS Press, Berlin 2002, ISBN 1-55608-010-7 (englisch, encyclopediaofmath.org).
  3. L. Fahrmeir, R. Künstler u. a.: Statistik. Der Weg zur Datenanalyse. 8. Auflage. Springer 2016, S. 262 ff.