Archiv der Kategorie: Statistik

Logistische Regression (Ein Gastbeitrag von Robert Grünwald)

Einleitung

In diversen Artikeln auf dieser Webseite wurde bereits beschrieben, wie man die SPSS Auswertung von bestimmten Regressionsmodellen durchführt. Die lineare Regression dient der Beschreibung eines gerichteten, linearen Zusammenhangs zwischen zwei metrischen Merkmalen. Es gibt eine abhängige Variable, deren Ausprägungen von einer erklärenden metrischen Variablen abhängen. Die Anzahl erklärender Variablen, also derjenigen Variablen, die einen Einfluss auf die abhängige Variable ausüben, kann auch größer als 1 sein, jedoch beschränken wir uns zwecks Übersichtlichkeit auf diesen grundlegenden Fall.
Sofern die erklärende Variable nicht metrisch ist sondern nominalskaliert mit mehr als zwei verschiedenen Werten, spricht man (als Verallgemeinerung des t-Tests) von einer Varianzanalyse.
Da das an die Daten angepasste Regressionsmodell i.d.R. nicht exakt ist, entstehen folglich Schätzfehler, welche annahmegemäß einer Normalverteilung folgen.

Logistische Regression

Bei der logistischen Regression tritt nun die Besonderheit auf, dass die abhängige Variable binär ist, d.h. sie kann nur zwei Ausprägungen annehmen, welche üblicherweise mit 0 und 1 codiert werden. Die Variable wird daher derart interpretiert, dass sie angibt, ob ein bestimmtes, interessierendes Ereignis eintritt oder. Der Wert 0 bedeutet, dass das interessierende Ereignis nicht eintritt, bspw. dass ein Kunde das Produkt nicht kauft. Hingegen repräsentiert der Wert 1 den Eintritt des Ereignisses, also z.B. dass der Kunde das Produkt kauft.

Die Anwendungsmöglichkeiten dieses Regressionsmodells sind äußerst vielfältig. Im Kontext von Kundenbeziehungen kann es von Interesse sein zu erkennen, ob ein Kunde kündigt oder nicht. Im Bereich der Medizin kann es interessieren, ob ein Patient überlebt oder nicht.

Modellgleichung der logistischen Regression

Das Modell der logistischen Regression schätzt jedoch nicht unmittelbar den Eintritt des Ereignisses, also die Werte 0 oder 1, sondern schätzt die Wahrscheinlichkeit für den Ereigniseintritt.
Bezeichnet man mit p die Wahrscheinlichkeit, dass das Ereignis eintritt, d.h. p ist die Wahrscheinlichkeit, dass die abhängige Variable den Wert 1 annimmt, so ist die Chance (Englisch: Odds) definiert als der Quotient p / ( 1 – p ) .

Die logistische Regressionsgleich basiert nun auf der Schätzung der logarithmierten Chance (engl. Log-Oddds) für den Ereigniseintritt. Der Grund für diesen Wechsel von der Originalvariable auf die Log Odds besteht darin, dass man auf diese Weise das lineare Regressionsmodell mit der o.g. Normalverteilungsannahme verwenden kann.

Im Falle einer erklärenden Variable hat man folgende Darstellung:

(1) ln ( p / (1 – p) ) = B0 + B1 * x
bzw.

(2) p / (1 – p) = exp( B0 + B1 * x )
Dabei bezeichnet x den Wert der erklärenden Variable.

Letzteres ist äquivalent zu folgender Gleichung:

(3) p = 1 / ( 1 + exp( – B0 – B1 * x ) )

SPSS Auswertung einer logistischen Regression

B0 und B1 sind also die beiden Parameter der logistischen Regression, welche nun in SPSS geschätzt werden. Dabei ist B0 die so genannte Modellkonstante und B1 das Gewicht der Einflussvariablen. Mittels der erhaltenen Schätzwerte für die Koeffizienten führt dies über die Gleichung (3) zu einem geschätzten Wert p_dach für die Wahrscheinlichkeit p.

Mittels eines Trennwertes K (üblicherweise 0,5) wird aus der Wahrscheinlichkeit p_dach eine Schätzung bzw. Vorhersage des Ereigniseintritts abgeleitet. Wenn p_dach >= K, dann wird das als Ereigniseintritt geschätzt, wenn p_dach < K, wird dies als Nicht-Eintritt des Ereignisses vorhergesagt.

Bei der Vorhersage der Ereignis-Eintritte bzw. Nicht-Eintritte durch das Modell passieren natürlich Fehler im Vergleich zu den tatsächlich beobachteten Werten/Ereigniseintritten. Je niedriger diese Fehlerquote ist, desto besser ist das Modell. Auch dieser Aspekt wird im Rahmen der SPSS Auswertung betrachtet.

Die Auswahl der logistischen Regression erfolgt über den Menü-Pfad „Analysieren ↷ Regression ↷ Binär Logistisch“.

image001

Im erscheinenden Auswahlfenster sind die abhängige Variable sowie die erklärende(n) Variablen auszuwählen.

image003

Als Output liefert die SPSS Auswertung mehrere Tabellen.

image005

Zunächst wird die Modellgüte quantifiziert. Die Güte der Modellanpassung wird einerseits durch Kennzahlen (bspw. R-Quadrat-Größen) ausgedrückt und andererseits über eine sogenannte Klassifikationstabelle. Diese Tabelle stellt tatsächliche Ereignis-Eintritte und –Nichteintritte den durch das Modell vorhergesagten (Nicht-)Eintritten gegenüber und zeigt, wie viele aller Fälle durch das Modell korrekt vorhergesagt werden. Die Vorhersage bzw. Einschätzung als 0 (Nicht-Eintritt) und 1 (Eintritt) erfolgt(e) anhand des Trennwertes 0,5 für die Wahrscheinlichkeit.

Schließlich werden in einer dritten Tabelle die geschätzten Regressionskoeffizienten angegeben (Spalte „B“). Die Spalte „Sig.“ gibt die p-Werte an und prüft somit, ob der einzelne Parameter statistisch signifikant ist.
Die letzte Spalte „Exp(B)“ erlaubt mittels Gleichung (2) die Interpretation der beiden Regressionskoeffizienten B0 und B1, insbesondere von B1: Ändert sich die erklärende Variable (hier: var_2) um 1 Einheit, so verändert sich die Chance auf den Ereigniseintritt um den Faktor exp(B1).

Über den Autor:

Robert Grünwald ist Gründer und Geschäftsführer von Novustat und bietet Kunden aus Wirtschaft und Wissenschaft Statistik Beratung. Schwerpunktmässig leistet das Team SPSS Hilfe sowie unterstützt die Kunden auch bei komplexeren statistischen Auswertungen.

Advertisements

Grundideen der Hypothesentestung

Ein weiterer YouTube-Fund:

Aktion „Unstatistik des Monats“

Die drei Forscher Gerd Gigerenzer, Thomas Bauer und Walter Krämer präsentieren auf http://www.rwi-essen.de/forschung-und-beratung/fdz-ruhr/unstatistik-des-monats/ die Unstatistik des Monats auf eine verständliche Art und Weise. In der Maistatistik geht es um Korrelation, Kausalität und Drittvariablen. Wir haben es geahnt: Schokoladeessen macht leider nicht dünn. Aber lesen Sie selbst.

Variation – Why statistical methods are needed

ein seichter Einstieg:

Buchtipp

Als Lehrbuch der multivariaten Statistik ist das Buch von Tabachnick und Fidell zu empfehlen. Trotz englischer Sprache ist es verständlicher als „der Bortz“ und genauer auf die Anforderungen der Psychologie ausgerichtet.

Tabachnick, B. G. & Fidell, L. S. (2007). Using multivariate statistics (5. Aufl.). Boston, Mass.: Pearson.

Für das 1. Semester ist es allerdings eher weniger geeignet.

Statistische Verfahren

Lernhilfe des Tages

Ein Klick auf die Abbildung zeigt sie – wie üblich – in Originalgröße.

Parametrische Verfahren und nonparametrische Entsprechungen

Parametrische Verfahren und nonparametrische Entsprechungen

Synonyme

Synonyme statistischer Fachbegriffe

Synonyme

Synonyme

Terminologie im Vergleich – ANOVA und Regression

Varianzanalyse und Regression – verschiedene Begrifflichkeiten

Terminologie - Varianzanalyse und Regression

Terminologie - Varianzanalyse und Regression

probabilistische Stichproben

probabilistische Stichproben

Stichprobenarten

Stichprobenarten

May the Power be with you

Wie erhöht man die Teststärke?

Im 1. Semester habt ihr euch lange mit dem t-Test befasst. Dabei seid ihr auch auf die sog. Determinanten des t-Tests (Signifikanzniveau, Stichprobenumfang, Fehler 2. Art bzw. Teststärke, Effekt) eingegangen. Mit diesem Wissen könnt ihr schon antworten: Um die Teststärke zu erhöhen, kann man…

  • den Fehler 2. Art senken,
  • das Signifikanzniveau vergrößern,
  • größere Effekte postulieren,
  • den Stichprobenumfang erhöhen, d.h. mehr Personen untersuchen.
  • Teste ein- statt zweiseitig.

Im weiteren Verlauf des Studiums werden euch noch folgende Möglichkeiten zur Power-Erhöhung begegnen:

  • Verwende parametrische Tests, falls die Voraussetzungen erfüllt sind.
  • Beschränke die Untersuchung auf wenige Hypothesen, da sonst ein Powerverlust durch die Alphaniveau-Adjustierung erfolgt.
  • Halte den Versuchsplan einfach (oder erhöhe N).
  • Teste multivariat, wodurch die Fehlervarianz (hoffentlich) kleiner wird.
  • Nutze Kovarianzanalysen.
  • Nutze Messwiederholungen.

Aber: Eine hohe Teststärke ist kein hinreichendes Kriterium für eine gute Untersuchung / ein gutes Experiment!

Was muss ich bei möglichen Maßnahmen zur Teststärkenerhöhung bedenken?

  • Gibt es eine begründete Hypothese (Theorie), die eine einseitige Signifikanztestung zulässt?
  • Über welche Gruppen (Stufen) will ich Aussagen treffen?
  • Ist eine Messwiederholung für die zu untersuchende Fragestellung überhaupt möglich bzw. sinnvoll?
  • Wie kommt man dazu wesentlich größere Effekte anzunehmen (als sie bisher gefunden wurden)?
  • Was könnten im konkreten Fall Kovariaten sein? Variablen, die man nicht erfasst hat, kann man nicht herausrechnen.
  • etc.