Was macht ihr so?

Was macht ihr eigentlich beruflich, seit ihr mit dem Studium fertig seid? Diese Frage soll dieser Blogbeitrag kurz anreißen. Wenn es der Zeitplan zulässt, schreiben wir im Sommer etwas mehr. Wir haben beide promoviert, sind der Lehre treu geblieben und bieten auf Anfrage auch Workshops an.

Florian bietet bei freien Kapazitäten Statistikberatung an und hat z. B. ein kleines Übungsbüchlein als Begleitung für die Statistik-Ausbildung im Masterstudiengang Psychologie verfasst (siehe http://www.fbuchwald.de/wordpress/ für mehr Informationen).

 

Statistik-Comics

In nächster Zeit werden an dieser Stelle Statistik-Comics zu finden sein. Manchmal Klassiker, manchmal aktuelle Fundstücke…

Logistische Regression (Ein Gastbeitrag von Robert Grünwald)

Einleitung

In diversen Artikeln auf dieser Webseite wurde bereits beschrieben, wie man die SPSS Auswertung von bestimmten Regressionsmodellen durchführt. Die lineare Regression dient der Beschreibung eines gerichteten, linearen Zusammenhangs zwischen zwei metrischen Merkmalen. Es gibt eine abhängige Variable, deren Ausprägungen von einer erklärenden metrischen Variablen abhängen. Die Anzahl erklärender Variablen, also derjenigen Variablen, die einen Einfluss auf die abhängige Variable ausüben, kann auch größer als 1 sein, jedoch beschränken wir uns zwecks Übersichtlichkeit auf diesen grundlegenden Fall.
Sofern die erklärende Variable nicht metrisch ist sondern nominalskaliert mit mehr als zwei verschiedenen Werten, spricht man (als Verallgemeinerung des t-Tests) von einer Varianzanalyse.
Da das an die Daten angepasste Regressionsmodell i.d.R. nicht exakt ist, entstehen folglich Schätzfehler, welche annahmegemäß einer Normalverteilung folgen.

Logistische Regression

Bei der logistischen Regression tritt nun die Besonderheit auf, dass die abhängige Variable binär ist, d.h. sie kann nur zwei Ausprägungen annehmen, welche üblicherweise mit 0 und 1 codiert werden. Die Variable wird daher derart interpretiert, dass sie angibt, ob ein bestimmtes, interessierendes Ereignis eintritt oder. Der Wert 0 bedeutet, dass das interessierende Ereignis nicht eintritt, bspw. dass ein Kunde das Produkt nicht kauft. Hingegen repräsentiert der Wert 1 den Eintritt des Ereignisses, also z.B. dass der Kunde das Produkt kauft.

Die Anwendungsmöglichkeiten dieses Regressionsmodells sind äußerst vielfältig. Im Kontext von Kundenbeziehungen kann es von Interesse sein zu erkennen, ob ein Kunde kündigt oder nicht. Im Bereich der Medizin kann es interessieren, ob ein Patient überlebt oder nicht.

Modellgleichung der logistischen Regression

Das Modell der logistischen Regression schätzt jedoch nicht unmittelbar den Eintritt des Ereignisses, also die Werte 0 oder 1, sondern schätzt die Wahrscheinlichkeit für den Ereigniseintritt.
Bezeichnet man mit p die Wahrscheinlichkeit, dass das Ereignis eintritt, d.h. p ist die Wahrscheinlichkeit, dass die abhängige Variable den Wert 1 annimmt, so ist die Chance (Englisch: Odds) definiert als der Quotient p / ( 1 – p ) .

Die logistische Regressionsgleich basiert nun auf der Schätzung der logarithmierten Chance (engl. Log-Oddds) für den Ereigniseintritt. Der Grund für diesen Wechsel von der Originalvariable auf die Log Odds besteht darin, dass man auf diese Weise das lineare Regressionsmodell mit der o.g. Normalverteilungsannahme verwenden kann.

Im Falle einer erklärenden Variable hat man folgende Darstellung:

(1) ln ( p / (1 – p) ) = B0 + B1 * x
bzw.

(2) p / (1 – p) = exp( B0 + B1 * x )
Dabei bezeichnet x den Wert der erklärenden Variable.

Letzteres ist äquivalent zu folgender Gleichung:

(3) p = 1 / ( 1 + exp( – B0 – B1 * x ) )

SPSS Auswertung einer logistischen Regression

B0 und B1 sind also die beiden Parameter der logistischen Regression, welche nun in SPSS geschätzt werden. Dabei ist B0 die so genannte Modellkonstante und B1 das Gewicht der Einflussvariablen. Mittels der erhaltenen Schätzwerte für die Koeffizienten führt dies über die Gleichung (3) zu einem geschätzten Wert p_dach für die Wahrscheinlichkeit p.

Mittels eines Trennwertes K (üblicherweise 0,5) wird aus der Wahrscheinlichkeit p_dach eine Schätzung bzw. Vorhersage des Ereigniseintritts abgeleitet. Wenn p_dach >= K, dann wird das als Ereigniseintritt geschätzt, wenn p_dach < K, wird dies als Nicht-Eintritt des Ereignisses vorhergesagt.

Bei der Vorhersage der Ereignis-Eintritte bzw. Nicht-Eintritte durch das Modell passieren natürlich Fehler im Vergleich zu den tatsächlich beobachteten Werten/Ereigniseintritten. Je niedriger diese Fehlerquote ist, desto besser ist das Modell. Auch dieser Aspekt wird im Rahmen der SPSS Auswertung betrachtet.

Die Auswahl der logistischen Regression erfolgt über den Menü-Pfad „Analysieren ↷ Regression ↷ Binär Logistisch“.

image001

Im erscheinenden Auswahlfenster sind die abhängige Variable sowie die erklärende(n) Variablen auszuwählen.

image003

Als Output liefert die SPSS Auswertung mehrere Tabellen.

image005

Zunächst wird die Modellgüte quantifiziert. Die Güte der Modellanpassung wird einerseits durch Kennzahlen (bspw. R-Quadrat-Größen) ausgedrückt und andererseits über eine sogenannte Klassifikationstabelle. Diese Tabelle stellt tatsächliche Ereignis-Eintritte und –Nichteintritte den durch das Modell vorhergesagten (Nicht-)Eintritten gegenüber und zeigt, wie viele aller Fälle durch das Modell korrekt vorhergesagt werden. Die Vorhersage bzw. Einschätzung als 0 (Nicht-Eintritt) und 1 (Eintritt) erfolgt(e) anhand des Trennwertes 0,5 für die Wahrscheinlichkeit.

Schließlich werden in einer dritten Tabelle die geschätzten Regressionskoeffizienten angegeben (Spalte „B“). Die Spalte „Sig.“ gibt die p-Werte an und prüft somit, ob der einzelne Parameter statistisch signifikant ist.
Die letzte Spalte „Exp(B)“ erlaubt mittels Gleichung (2) die Interpretation der beiden Regressionskoeffizienten B0 und B1, insbesondere von B1: Ändert sich die erklärende Variable (hier: var_2) um 1 Einheit, so verändert sich die Chance auf den Ereigniseintritt um den Faktor exp(B1).

Über den Autor:

Robert Grünwald ist Gründer und Geschäftsführer von Novustat und bietet Kunden aus Wirtschaft und Wissenschaft Statistik Beratung. Schwerpunktmässig leistet das Team SPSS Hilfe sowie unterstützt die Kunden auch bei komplexeren statistischen Auswertungen.

Fehler 1. und 2. Art

Im Oktober ist im „The Economist“ ein lesenswerter Artikel erschienen: How sciences goes wrong.

Das Problem statistischer Fehler wird auch in folgendem Video kurz beschrieben: http://econ.st/1gawXlu

Syntax für fehlende Werte bei String-Variablen

Systembedingt fehlende Werte per Syntax zu verwenden ist leicht, wenn der Typ der Variable Var_A numerisch ist:
IF (Var_A = SYSMIS) Var_B = 4.
Falls es sich allerdings bei Var_A um eine Variable vom Typ String handelt, funktioniert die obige Syntax nicht, da SPSS für String-Variablen nicht automatisch leere Zellen als SYSMIS (bzw. MISSING) definiert.
Leere String-Zellen werden per “ identifiziert.

Beispiel

* Die nachfolgende Zeile weist jeder Person auf der Variablen Var_B den Wert 4 zu, falls die String-Variable Var_A der Person keinen Eintrag enthält:

IF (VAR_A = '') Var_B = 4.

Mehr auf ibm.com.

Grundideen der Hypothesentestung

Ein weiterer YouTube-Fund:

Geschützt: Workshop 2012

Dieser Inhalt ist passwortgeschützt. Um ihn anzuschauen, gib dein Passwort bitte unten ein:

Aktion „Unstatistik des Monats“

Die drei Forscher Gerd Gigerenzer, Thomas Bauer und Walter Krämer präsentieren auf http://www.rwi-essen.de/forschung-und-beratung/fdz-ruhr/unstatistik-des-monats/ die Unstatistik des Monats auf eine verständliche Art und Weise. In der Maistatistik geht es um Korrelation, Kausalität und Drittvariablen. Wir haben es geahnt: Schokoladeessen macht leider nicht dünn. Aber lesen Sie selbst.

Übung

Wie könnte man die folgenden Fragestellungen methodisch sauber untersuchen? Welche statistischen Verfahren könnte man dabei zur Auswertung wählen?

  1. Verbessert ein intensives neues Zirkeltraining die Ausdauer einer Fussballmannschaft?
  2. Sind Kinder mit Migrationshintergrund in der Schule misserfolgsängstlicher als Kinder ohne Migrationshintergrund?
  3. Unterscheiden sich männliche und weibliche Grundschulkinder hinsichtlich ihres mathematischen Selbstkonzepts?
  4. Gibt es einen Zusammenhang zwischen Parteienzugehörigkeit und erreichtem Schulabschluss?
  5. Ist das neue Medikament C wirksamer als die auf dem Markt befindlichen Medikamente A und B?
  6. Sind zwei „Parallelformen“ eines Deutschtests wirklich gleichwertig?

Geschützt: Workshop 2011

Dieser Inhalt ist passwortgeschützt. Um ihn anzuschauen, gib dein Passwort bitte unten ein: