Blog-Archive

Logistische Regression (Ein Gastbeitrag von Robert Grünwald)

Einleitung

In diversen Artikeln auf dieser Webseite wurde bereits beschrieben, wie man die SPSS Auswertung von bestimmten Regressionsmodellen durchführt. Die lineare Regression dient der Beschreibung eines gerichteten, linearen Zusammenhangs zwischen zwei metrischen Merkmalen. Es gibt eine abhängige Variable, deren Ausprägungen von einer erklärenden metrischen Variablen abhängen. Die Anzahl erklärender Variablen, also derjenigen Variablen, die einen Einfluss auf die abhängige Variable ausüben, kann auch größer als 1 sein, jedoch beschränken wir uns zwecks Übersichtlichkeit auf diesen grundlegenden Fall.
Sofern die erklärende Variable nicht metrisch ist sondern nominalskaliert mit mehr als zwei verschiedenen Werten, spricht man (als Verallgemeinerung des t-Tests) von einer Varianzanalyse.
Da das an die Daten angepasste Regressionsmodell i.d.R. nicht exakt ist, entstehen folglich Schätzfehler, welche annahmegemäß einer Normalverteilung folgen.

Logistische Regression

Bei der logistischen Regression tritt nun die Besonderheit auf, dass die abhängige Variable binär ist, d.h. sie kann nur zwei Ausprägungen annehmen, welche üblicherweise mit 0 und 1 codiert werden. Die Variable wird daher derart interpretiert, dass sie angibt, ob ein bestimmtes, interessierendes Ereignis eintritt oder. Der Wert 0 bedeutet, dass das interessierende Ereignis nicht eintritt, bspw. dass ein Kunde das Produkt nicht kauft. Hingegen repräsentiert der Wert 1 den Eintritt des Ereignisses, also z.B. dass der Kunde das Produkt kauft.

Die Anwendungsmöglichkeiten dieses Regressionsmodells sind äußerst vielfältig. Im Kontext von Kundenbeziehungen kann es von Interesse sein zu erkennen, ob ein Kunde kündigt oder nicht. Im Bereich der Medizin kann es interessieren, ob ein Patient überlebt oder nicht.

Modellgleichung der logistischen Regression

Das Modell der logistischen Regression schätzt jedoch nicht unmittelbar den Eintritt des Ereignisses, also die Werte 0 oder 1, sondern schätzt die Wahrscheinlichkeit für den Ereigniseintritt.
Bezeichnet man mit p die Wahrscheinlichkeit, dass das Ereignis eintritt, d.h. p ist die Wahrscheinlichkeit, dass die abhängige Variable den Wert 1 annimmt, so ist die Chance (Englisch: Odds) definiert als der Quotient p / ( 1 – p ) .

Die logistische Regressionsgleich basiert nun auf der Schätzung der logarithmierten Chance (engl. Log-Oddds) für den Ereigniseintritt. Der Grund für diesen Wechsel von der Originalvariable auf die Log Odds besteht darin, dass man auf diese Weise das lineare Regressionsmodell mit der o.g. Normalverteilungsannahme verwenden kann.

Im Falle einer erklärenden Variable hat man folgende Darstellung:

(1) ln ( p / (1 – p) ) = B0 + B1 * x
bzw.

(2) p / (1 – p) = exp( B0 + B1 * x )
Dabei bezeichnet x den Wert der erklärenden Variable.

Letzteres ist äquivalent zu folgender Gleichung:

(3) p = 1 / ( 1 + exp( – B0 – B1 * x ) )

SPSS Auswertung einer logistischen Regression

B0 und B1 sind also die beiden Parameter der logistischen Regression, welche nun in SPSS geschätzt werden. Dabei ist B0 die so genannte Modellkonstante und B1 das Gewicht der Einflussvariablen. Mittels der erhaltenen Schätzwerte für die Koeffizienten führt dies über die Gleichung (3) zu einem geschätzten Wert p_dach für die Wahrscheinlichkeit p.

Mittels eines Trennwertes K (üblicherweise 0,5) wird aus der Wahrscheinlichkeit p_dach eine Schätzung bzw. Vorhersage des Ereigniseintritts abgeleitet. Wenn p_dach >= K, dann wird das als Ereigniseintritt geschätzt, wenn p_dach < K, wird dies als Nicht-Eintritt des Ereignisses vorhergesagt.

Bei der Vorhersage der Ereignis-Eintritte bzw. Nicht-Eintritte durch das Modell passieren natürlich Fehler im Vergleich zu den tatsächlich beobachteten Werten/Ereigniseintritten. Je niedriger diese Fehlerquote ist, desto besser ist das Modell. Auch dieser Aspekt wird im Rahmen der SPSS Auswertung betrachtet.

Die Auswahl der logistischen Regression erfolgt über den Menü-Pfad „Analysieren ↷ Regression ↷ Binär Logistisch“.

image001

Im erscheinenden Auswahlfenster sind die abhängige Variable sowie die erklärende(n) Variablen auszuwählen.

image003

Als Output liefert die SPSS Auswertung mehrere Tabellen.

image005

Zunächst wird die Modellgüte quantifiziert. Die Güte der Modellanpassung wird einerseits durch Kennzahlen (bspw. R-Quadrat-Größen) ausgedrückt und andererseits über eine sogenannte Klassifikationstabelle. Diese Tabelle stellt tatsächliche Ereignis-Eintritte und –Nichteintritte den durch das Modell vorhergesagten (Nicht-)Eintritten gegenüber und zeigt, wie viele aller Fälle durch das Modell korrekt vorhergesagt werden. Die Vorhersage bzw. Einschätzung als 0 (Nicht-Eintritt) und 1 (Eintritt) erfolgt(e) anhand des Trennwertes 0,5 für die Wahrscheinlichkeit.

Schließlich werden in einer dritten Tabelle die geschätzten Regressionskoeffizienten angegeben (Spalte „B“). Die Spalte „Sig.“ gibt die p-Werte an und prüft somit, ob der einzelne Parameter statistisch signifikant ist.
Die letzte Spalte „Exp(B)“ erlaubt mittels Gleichung (2) die Interpretation der beiden Regressionskoeffizienten B0 und B1, insbesondere von B1: Ändert sich die erklärende Variable (hier: var_2) um 1 Einheit, so verändert sich die Chance auf den Ereigniseintritt um den Faktor exp(B1).

Über den Autor:

Robert Grünwald ist Gründer und Geschäftsführer von Novustat und bietet Kunden aus Wirtschaft und Wissenschaft Statistik Beratung. Schwerpunktmässig leistet das Team SPSS Hilfe sowie unterstützt die Kunden auch bei komplexeren statistischen Auswertungen.

Advertisements

Geschützt: Workshop 2012

Dieser Inhalt ist passwortgeschützt. Um ihn anzuschauen, gib dein Passwort bitte unten ein:

Geschützt: Workshop 2011

Dieser Inhalt ist passwortgeschützt. Um ihn anzuschauen, gib dein Passwort bitte unten ein:

SPSS auf YouTube

YouTube zeigt etwa 1600 Treffer beim Suchbegriff „SPSS“ an, die – wie nicht anders zu erwarten – von recht unterschiedlicher Qualität sind. Einige brauchbare Video-Anleitungen haben wir in die Tutoriumsseiten eingebettet.

Probleme mit SPSS 18 per Vpn-Lizenzierung

Leider funktioniert die Nutzung von SPSS 18 von außerhalb der Uni nur eingeschränkt. Wenn man SPSS über die Vpn-Lizenzierung nutzt, meldet SPSS 18 regelmäßig beim Starten Lizenzprobleme, wodurch man SPSS nicht nutzen kann. Das URT spricht von einer Erfolgswahrscheinlichkeit von 10-50% (siehe http://www.uni-trier.de/index.php?id=31778), d.h. es sind meist mehrer Versuche nötig, bis man mit SPSS 18 über Vpn-Lizenzierung  nutzen kann.

Wer die ca. 25 Euro für eine zeitlich befristete Einzelplatzlizenz ausgeben will, bleibt vor diesem Problem verschont. Alternativ kann man auch SPSS 17 nutzen.

kleiner Tipp

In Version 17 von SPSS (PASW) gelangt man durch einen Klick auf die Zeilennummer in der Variablenansicht zur zugehörigen Variable in der Datenansicht. Das ist gerade bei größeren Datenmatrizen manchmal nützlich.

SPSS-Netzwerklizenzversion zum Download

Diejenigen Studenten der Universität Trier, die sich den Weg zum ServicePoint und den einen Euro für die SPSS-CD der Netzwerklizenzversion sparen wollen, können die Installdateien bequem über das Rechenzentrum herunterladen: http://www.uni-trier.de/index.php?id=550.

Zur Erinnerung: Bei Benutzung der Netzwerklizenzversion muss bei der Benutzung von SPSS eine aktive Internetverbindung (am besten DSL) bestehen und der VPN-Client laufen.

SPSS = PASW

Weil die Firma SPSS regelmäßig neue Namen erfindet, um für Begriffsverwirrung unterschiedlichen Ausmaßes zu sorgen, heißt das Statistikprogramm SPSS (Statistics) seit Version 17 PASW Statistics (Predictive Analytics Software). Toll!

Terminologie

In der Vorlesung ist die Terminologie noch einfach:

  • Bei t-Test bzw. ANOVA sprechen wir von unabhängigen und abhängigen Variablen, kurz UV und AV.
  • Bei der Regression sprechen wir von Prädikor (UV) und Kriterium (AV).

SPSS hat leider andere Bezeichnungen, die sich auch noch zwischen verschiedenen Versionen unterscheiden.

Beispiele – begriffliche Verwirrung mit SPSS

  • Der t-Test für abhängige Stichproben heißt in Version 15 „t-Test für gepaarte Stichproben“, in Version 16 „t-Test für verbundene Stichproben“.
  • Die unabhängige Variable beim t-Test für unabhängige Stichproben heißt in SPSS „Gruppenvariable“, die abhängige Variable „Testvariable“.

Weitere Beispiele folgen.