Schritt für Schritt Anleitung
Auswertung interpretieren
Häufige Fragen zu diesem Schritt
Was ist der Unterschied zwischen der Basisregression und der erweiterten Regression?
In der Basisregression werden die Variablen Geschlecht, Ausbildungsjahre, Dienstjahre und potenzielle Erwerbserfahrung (in Jahren) in ihrem Einfluss auf die Entlohnung getestet. Der Koeffizient der Variabel "Geschlecht" (Geschlechtskoeffizient) gibt dann Auskunft über den Entgeltunterschied von Frauen und Männern bei gleicher Zahl an Ausbildungsjahren, Dienstjahren und potenzieller Erwerbserfahrung. Im Detail wird der Geschlechtskoeffizient durch die Rechenoperation (1 – eGeschlechtskoeffizient) * 100 in den prozentualen Entgeltunterschied umgerechnet (vergleiche Zeile 4 auf dem Blatt "rpt_fazit").
In der erweiterten Regression wird das Modell der Basisregression um die beiden Variablen Anforderungsniveau und berufliche Stellung erweitert. Der Geschlechtskoeffizient beschreibt dann den Einfluss des Geschlechts auf die Höhe der Entlohnung bei gleicher Zahl an Ausbildungsjahren, Dienstjahren, potenzieller Erwerbserfahrung, bei gleichem Anforderungsniveau und gleicher beruflicher Stellung. Da anzunehmen ist, dass die letzten beiden Faktoren einen Erklärungsgehalt für die Entlohnung haben, wird voraussichtlich auch der Geschlechtskoeffizient kleiner ausfallen, da das Geschlecht nun (vermutlich) einen kleineren Einfluss auf die Entlohnung haben wird.
Grundsätzlich sind daher alle entgeltrelevanten Faktoren zu berücksichtigen. Da jedoch mit zunehmender Zahl an Variablen einerseits der Aufwand zur Erhebung der Daten zunimmt und andererseits eine erhöhte Mindestzahl an Datensätzen gefordert wird, damit Logib-D überhaupt funktioniert, ist die Auswahl von insgesamt sechs erklärenden Variablen* in der erweiterten Regression als Kompromiss zu verstehen.
*(Im Detail werden die Variablen "Anforderungsniveau" (Referenz + 4 Stufen) und berufliche Stellung (Referenz + 3 Stufen) als kategoriale Variablen verwendet. Damit umfasst die Schätzgleichung der erweiterten Regression insgesamt 11 Variablen.)
Wie kann ich überprüfen, ob das Ergebnis plausibel ist?
Dazu liefert Logib-D folgende Anhaltspunkte:
- Anzahl Mitarbeiterinnen/Mitarbeiter, Anteil Frauen: Das Resultat wird umso zuverlässiger, je mehr Mitarbeiterinnen und Mitarbeiter in der Regressionsberechnung berücksichtigt werden und je ausgewogener das Geschlechterverhältnis ist.
- R2 (Datenblatt "rpt_fazit"): Der Wert R2 (= R²) wird in der Frage "Was ist R2?“ erklärt. Je näher R2 bei eins liegt, umso größer ist der Erklärungsgehalt der im Modell berücksichtigten Faktoren für die Entgelthöhe und umso zuverlässiger ist – im Allgemeinen – das Resultat. Zu beachten ist, dass R2 in der Regel umso größer wird, je größer die Anzahl der erklärenden Variablen ist.
- In der Spalte AA (Datenblatt "data_form") finden Sie die prozentualen Abweichungen der berechneten Entgelte zu den tatsächlichen Entgelten. Wir empfehlen, die Datensätze mit größeren Abweichungen zu überprüfen (vgl. dazu die Frage "Wozu dienen die Spalten W, Z und AA auf dem Datenblatt data_form?").
Ich erhalte kein statistisch signifikantes Ergebnis. Was bedeutet das?
Ein statistisch signifikantes Ergebnis bedeutet hier, dass das Geschlecht (nach Berücksichtigung der übrigen Faktoren in der Basisregression beziehungsweise erweiterten Regression) einen systematischen und damit nicht zufälligen Einfluss auf die Entlohnung hat. Wenn kein statistisch signifikantes Ergebnis vorliegt, kann dies auf eine geschlechtergleiche Entlohnung im Rahmen der in den Modellen verwendeten Variablen hinweisen, allerdings können auch datentechnische Probleme, Implausibilitäten oder Entgeltungleichheit in Bezug auf andere, nicht berücksichtigte Merkmale vorliegen.
Daher sind weitere Prüfschritte zu empfehlen:
Zunächst können Sie auf dem Datenblatt data_form anhand der Filterspalten X und Y überprüfen, ob ungültige oder unvollständige Datensätze vorliegen und diese, wenn möglich, vervollständigen.
Als Zweites können Sie mit Hilfe der Spalten W und Z statistische Ausreißer finden und überprüfen, ob eventuell ein Erfassungsfehler vorliegt.
Wenn Sie bei einer erneuten Auswertung ebenfalls kein signifikantes Resultat erhalten, kann dies folgende Ursachen haben:
- Ihr Unternehmen hat eine zu kleine Anzahl von Mitarbeiterinnen und Mitarbeitern: Die statistische Methode, die Logib-D zugrunde liegt, kann nicht angewandt werden oder hat nur beschränkte Aussagekraft.
- Das Geschlechterverhältnis in Ihrem Unternehmen ist sehr unausgewogen oder Frauen und Männer arbeiten in verschiedenen Bereichen, zum Beispiel wenn bei der Auswertung der erweiterten Regression kaum Frauen in einer bestimmten Leitungsebene vertreten sind.
- Für die Entlohnung in Ihrem Unternehmen sind (zusätzlich oder alternativ) andere Faktoren relevant als die im Modell verwendeten.
Hinweis: Ein Resultat kann auch ohne statistische Signifikanz Aussagekraft haben. Ziehen Sie weitere deskriptive Analysen heran.
Ich kann das Ergebnis nicht interpretieren. Warum?
Logib-D berechnet mit Hilfe statistischer Methoden den prozentualen Entgeltunterschied zwischen Frauen und Männern und prüft, ob dieser Unterschied statistisch signifikant ist, das heißt nicht zufällig ist. Dazu werden zwei Regressionen berechnet: Die Basisregression und die erweiterte Regression.
Als Ergebnis der Berechnungen können mehrere Fälle auftreten.
Sind beide Ergebnisse signifikant von Null verschieden, deutet dies zunächst auf ein bestimmtes Ausmaß von Entgeltungleichheit hin. Allerdings können Variablen/Informationen in den Regressionsberechnungen fehlen, die den Entgeltunterschied ganz oder zum Teil erklären können.
Im Übrigen sollte eine weitere Prüfung der Daten durchgeführt werden, vergleiche etwa die Frage "Ich erhalte kein signifikantes Ergebnis. Was bedeutet das?".
Im Allgemeinen ist jene Regression vorzuziehen, die ein höheres R2 aufweist. Normalerweise dürfte dies die erweiterte Regression sein, weil sie eine größere Anzahl an Erklärungsfaktoren berücksichtigt.
Ich habe ein Ergebnis bekommen, halte dieses aber für unplausibel. Was sind meine weiteren Schritte und welche Ursachen sind denkbar?
1. Prüfen Sie, ob die Daten korrekt sind. Einen Hinweis erhalten Sie in der Spalte AA. Anhand der Prozentzahlen können Sie sogenannte Ausreißer erkennen, vergleiche auch die Frage "Wozu dienen die Spalten W, Z und AA auf dem Datenblatt data_form?".
2. Oft müssen die Ausbildungsabschlüsse aus den Personaldaten manuell erhoben werden und können deshalb veraltet sein - Prüfen Sie daher diese Angaben.
3. Logib-D errechnet die Zahl der Ausbildungsjahre und die potenzielle Erwerbserfahrung automatisch. Dies ist mit Kompromissen hinsichtlich der Datenqualität verbunden, reduziert aber den datentechnischen Aufwand und führt zu einem weniger komplexen Modell.
Die Zahl der Ausbildungsjahre basiert auf Annahmen über die Dauer der angegebenen Ausbildung. Dies ist erforderlich, um die Anzahl der in den Modellen berücksichtigten Variablen möglichst klein zu halten. Je größer die Anzahl der Variablen ist, desto größer sollte auch der verwendete Datensatz sein. Um aber auch kleineren Unternehmen Logib-D anbieten zu können, wird daher nicht jeder Ausbildungsabschluss separat berücksichtigt, sondern eine standardisierte Zahl von Ausbildungsjahren berechnet. Dafür wurden folgende Annahmen getroffen:
Ausbildungsabschluss:
1 Hauptschule, mittlere Reife ohne Berufausbildung, Ausbildungsjahre: 10,0
2 Hauptschule, mittlere Reife mit Berufausbildung, Ausbildungsjahre: 13,0
3 Abitur, Hochschulreife ohne Berufausbildung, Ausbildungsjahre: 13,0
4 Abitur, Hochschulreife mit Berufausbildung, Ausbildungsjahre: 15,0
5 Fachhochschulabschluss, Ausbildungsjahre: 17,0
6 Hochschul-/Universitätsabschluss, Ausbildungsjahre: 19,0
7 Ausbildung unbekannt, Ausbildungsjahre: 12,0
Die potenzielle Erwerbserfahrung berechnet sich nach der Formel:
Potenzielle Erwerbserfahrung = Alter einer Person – Ausbildungsjahre – 6 (Vorschuljahre)
Dies ist ein in der wissenschaftlichen Literatur üblicher Kompromiss, da die Daten zur Erwerbserfahrung im Allgemeinen nicht detailliert erhoben werden (können).
4. Mit Logib-D wird unter anderem untersucht, wie sich das Anforderungsniveau und die berufliche Stellung auf das Entgelt auswirken (und letztlich auf den Geschlechtskoeffizienten). Da diese Informationen nicht immer unabhängig voneinander sind, kann dadurch der Erklärungswert des (erweiterten) Modells sinken, das heißt das Resultat wäre dann weniger aussagekräftig. Beispielsweise erfordern die Tätigkeiten von Führungskräften in der Regel auch ein hohes Anforderungsniveau.
Da umgekehrt allerdings nicht zwangsläufig ein hohes Anforderungsniveau auch mit einer hohen (Führungs-)Verantwortung gemäß der beruflichen Stellung einhergehen muss, sollten die Angaben nicht zu stark korrelieren. Benutzen Sie daher – nach Möglichkeit – alle vier Anforderungskategorien und alle fünf Stufen der beruflichen Stellung.
5. Das Ergebnis kann fehlerhaft sein, wenn beispielsweise Sonderzahlungen nicht korrekt erfasst wurden, wenn unterschiedliche Arbeitszeiten vorliegen oder wenn die Entgeltdaten nicht zu den Zeitangaben passen. Dies sollte überprüft werden.
Warum unterscheidet sich die Zahl der gültigen Datensätze zwischen Basisregression und erweiterter Regression?
Wenn die Anzahl gültiger Datensätze zwischen der Basisregression und der erweiterten Regression differiert, sind gegebenenfalls Angaben zur beruflichen Stellung oder zum Anforderungsniveau für einige Personen nicht korrekt erfasst. Prüfen Sie daher diese Daten noch einmal.
Kann ich die Daten exportieren?
a) Sie können die Daten entweder mit "Datei - Speichern unter" in ein beliebiges, von Excel unterstütztes Datenformat speichern oder
b) Sie können die Daten markieren, kopieren und anschließend in eine neue Excel-Datei einfügen.
Wozu dienen die Spalten W, Z und AA auf dem Datenblatt data_form?
Diese Spalten dienen dazu, mögliche Eingabefehler zu finden und werden von Excel automatisch berechnet. In den Spalten W und Z wird für jede Person der vom Modell vorhergesagte Gesamtverdienst ausgewiesen und mit dem effektiven Gesamtverdienst verglichen. Daraus ergibt sich die prozentuale Abweichung (vergleiche Spalte AA, Blatt data_form).
Ein positiver Wert bedeutet, dass der effektive über dem vorhergesagten Gesamtverdienst für die betreffende Person liegt. Ein negativer Wert bedeutet, dass der effektive unter dem vorhergesagten Gesamtverdienst liegt.
In Spalte AA sind diejenigen Werte rot markiert, die eine betragsmäßige Abweichung von ≥20% vom vorhergesagten Gesamtverdienst aufweisen. Für die Abweichungen gibt es verschiedene Gründe:
- Es kann sein, dass weitere Faktoren die Entlohnung bestimmen, die in den Modellen nicht berücksichtigt sind (zum Beispiel niedrigeres Entgelt aufgrund von Erwerbsunterbrechungen oder höheres Entgelt aufgrund von Weiterbildungsabschlüssen) und die, die Entgeltdifferenz begründen können.
- Eingabefehler: Überprüfen Sie die Datensätze, ob die Daten konsistent sind, das heißt ob beispielsweise das Geburtsjahr (Alter) zum Eintrittsdatum und anderen Angaben passt.
Wichtig: Die Spalten V bis AA dienen ausschließlich zur Überprüfung der eingegebenen Daten und sollen helfen, die Datenqualität zu verbessern.
Was ist R2?
R2 ist das Bestimmtheitsmaß (= R²). Es sagt aus, welcher Anteil der Streuung der Entgelte durch die in den einzelnen Regressionsberechnungen berücksichtigten Variablen erklärt werden kann. R2 kann daher nur Werte zwischen 0 und 1 annehmen. Je höher R2 ist, umso besser werden die Entgelte mittels der im Modell berücksichtigten Faktoren erklärt und umso stärker sind die in den beiden Regressionen verwendeten Variablen für die Erklärung der Entgelthöhe verantwortlich. Sie finden den Wert von R2 für Ihr Unternehmen auf dem Blatt "rpt_fazit", Zeile 14.
Es ist nicht möglich, die Qualität von R2 exakt und absolut zu definieren. Trotzdem wollen wir hier Intervalle nennen, die Ihnen helfen, Ihre Ergebnisse besser einzuordnen:
- R2 ≥ 0,8:
Ihr Resultat ist sehr zuverlässig. Die im Modell berücksichtigten, entgeltrelevanten Faktoren können die Streuung der Entgelte in Ihrem Unternehmen zu einem großen Teil erklären. - 0,6 ≥ R2 < 0,8:
Ihr Resultat ist ziemlich zuverlässig. Die im Modell berücksichtigten, entgeltrelevanten Faktoren können die Streuung der Entgelte in Ihrem Unternehmen mit einem durchschnittlichen Anteil erklären. - 0,4 ≥ R2 < 0,6:
Ihr Resultat ist nur bedingt zuverlässig. Es könnte sein, dass nicht alle Daten korrekt erfasst wurden. Überprüfen Sie Ihre Eingaben. Wenn alle Eingaben korrekt sind, ist es zumindest empfehlenswert, nach Erklärungen für den relativ niedrigen Wert von R2 zu suchen. Möglicherweise sind weitere Faktoren für die Bestimmung Ihrer Entlohnung im Unternehmen maßgebend, die nicht berücksichtigt werden konnten. - R2 < 0,4:
Ihr Resultat ist zu wenig zuverlässig oder beruht möglicherweise auf fehlerhaften Daten. Die benutzten Faktoren erklären deutlich weniger als die Hälfte der beobachteten Entgeltunterschiede. Möglicherweise sind weitere Faktoren für die Bestimmung der Entgelte in ihrem Unternehmen maßgebend oder die Informationen des Personaldatensystems ihres Unternehmens wurden nicht korrekt in die Kategorien von Logib-D übersetzt. In diesem Fall sollten Sie noch einmal die Daten überprüfen und gegebenenfalls externe Hilfe suchen.
Weshalb stimmt das R2 von Logib-D nicht unbedingt mit dem von SPSS (Statistikprogramm) überein?
In SPSS werden die Werte für das unkorrigierte und das korrigierte R2 ausgewiesen. Logib-D beziehungsweise Excel kann nur das unkorrigierte R2 berechnen. In üblichen Statistik-Anwendungen wird R2 korrigiert, weil mit jeder zusätzlichen Variable automatisch R2 ansteigt. Dies geschieht auch dann, wenn die zusätzliche, unabhängige Variablen kaum etwas zur Erklärung der abhängigen Variable (dem Entgelt) beitragen. Mit anderen Worten: Das unkorrigierte R2 nimmt mit zunehmender Zahl an Variablen im Modell zu, das korrigierte R2 hingegen "bestraft" eine zu große Zahl an Variablen.

