umfragen_nonresponse_fehler

Der Nonresponse-Fehler bei Umfragen: Problembeschreibung und Lösungsversuche

Wörtlich übersetzt: „nicht darauf ansprechen, nicht antworten“. Bei jeder Umfrage gibt es Menschen, die keine vollständige Auskunft geben oder überhaupt nicht bei der Umfrage mitmachen.
Also: Menschen, die persönlich darum gebeten werden, an einer Umfrage teilzunehmen, tun dies nicht: Sie klicken den Link zur Umfrage nicht, sie senden einen Umschlag mit Fragebogen nicht zurück, bzw. sie verweigern Auskunft am Telefon oder einen Termin, wenn es sich um persönliche Besuche handelt. Diese Art vollständiger Antwortausfall heißt „unit nonresponse“. Oder: Menschen, die an einer Umfrage teilnehmen, überspringen manche Fragen. Dieser teilweise Antwortausfall nennt sich „item nonresponse“.
Aus dem Anteil von Menschen, die an der Umfrage teilnehmen, ergibt sich dann im Gegenzug die Response Rate (RR) oder auf deutsch: die Rücklaufquote oder Ausschöpfungsquote.

Normalerweise machen sich die Erstellenden einer Umfrage viele Gedanken darüber, wie repräsentativ die Umfrage ist. Bildet sie das Geschlechterverhältnis gut ab? Sind Befragte aus allen Altersgruppen und mit allen Bildungsabschlüssen dabei? Und so weiter.
Um eine möglichst gute Repräsentativität zu erreichen, benutzen viele Umfragen Zufallsstichproben: Die Teilnehmenden werden durch bestimmte Verfahren ausgelost.
Einfacher ist eine Nicht-Zufalls-Stichprobe, um Teilnehmende zu erreichen: Zum Beispiel wird ein Link versendet mit Bitte um Weiterverteilung, sodass sich die Einladung zur Umfrage wie eine Art Schneeballsystem verbreitet. Diese Weiterverteilung erfolgt aber oft innerhalb von „Filterblasen“, sodass die Repräsentativität insgesamt schlechter ist als bei Zufallsstichproben. (Cornesse2018)
Egal, welche Methode zur Rekrutierung verwendet wird: Wenn Menschen nicht an der Umfrage teilnehmen, werden diese Verhältnisse im Vergleich zur Gesamtbevölkerung unter Umständen (weiter) verzerrt. Auf Deutsch heißt der Nonresponse-Fehler daher auch „Schweigeverzerrung“. Denn: Wenn eine spezielle Gruppe aus welchen Gründen auch immer tendenziell seltener eine Umfrage beantwortet, gefährdet dies die Repräsentativität einer Umfrage. Je höher die Response Rate ist, desto repräsentativer ist die Umfrage üblicherweise. (Groves 2008 – Intervention: Other (SDC))

Eine Briefumfrage zum Thema „Was brauchen Ihre Kinder in der Schule?“. Eltern, die schlecht lesen können und/oder wenig Zeit haben, werfen den Brief ins Altpapier, obwohl ihre Kinder vielleicht dringend Hilfe benötigen. Eltern, die gut lesen können, beantworten die Fragen, und auf einmal sieht es so aus, als wären die Schulen viel besser, als sie es in Wirklichkeit sind.

An vielen Umfragen nehmen verhältnismäßig wenig Menschen teil, das heißt, die unit nonresponse ist oft sehr hoch. Dadurch werden die Daten aus den Umfragen unzuverlässig. Bei Marktforschung ist das meist nur für die Firma ärgerlich, die die Umfrage in Auftrag gegeben hat. Wenn es aber um politische Fragen geht, wie in unseren Beispiel mit der Schule, kann das weitreichende Auswirkungen auf das Leben vieler Menschen haben.
Um möglichst viele Menschen dazu zu bringen, eine Umfrage zu beantworten, wurden daher einige Strategien entwickelt und deren Wirkung untersucht. Das bedeutet in der Praxis, man macht Studien, um herauszufinden, welche Strategie die beste Wirkung hat.
Zuerst betrachten wir hier die äußeren Umstände und wie diese die Response-Rate beeinflussen. Danach widmen wir uns Methoden, die das sogenannte „Survey Burden“ verringern sollen. Mit dem Survey Burden – wörtlich der „Umfragebelastung“ – ist gemeint, dass Umfragen von den Befragten einen gewissen Aufwand verlangen, und zwar meist in Form von Zeit und persönlichen Informationen.

Bei Umfragen geht es oft darum, zu verhindern, dass die Umfrageergebnisse fehlerhaft sind. Bestimmte Strategien/Massnahmen können, wenn man sie anwendet, die Fehleranfälligkeit einer Umfrage vermindern, die Umfrageergebnisse werden dadurch „robuster“ und geben dadurch sicherer wieder, was die Befragten wirklich denken. Institute , die professionell Umfragen durchführen, haben meist einen ganzen Köcher, eine ganze Palette an Massnahmen,wie sie dem Fehlerteufel das Wasser abgraben. Hierzu macht man raffinierte Studien, um herauszufinden, wie gut eine Massnahme zur Fehlervorbeugung wirkt.
Dazu ein Beispiel: Ein Team hat zwei drei Studien, deren Ergebnisse sich widersprechen. Es geht um die Massnahme X, die die Fehlerhäufigkeit von Umfragen angeblich deutlich vermindern soll. Das Ergebnis der Studie 1 besagt, dass Massnahme X sehr wirksam ist. Studien 2 und 3 haben hingegen das Ergebnis erbracht, dass Massnahme X nicht besonders hilft, dem Fehlerteufel zu besiegen.
Was tun?
Ganz einfach: Man analysiert alle 3 Studien und zwar will man wissen, welche Qualität die Studien aufweisen. Man kann davon ausgehen, dass die Studien mit der besten Qualität der Wahrheit am nächsten kommt. Dazu verwendet man spezielle Untersuchungswerkzeuge, genauer ein Toolset mit der Bezeichnung „systematischer Review“. Man macht also eine spezielle Studie über die fraglichen Studien. Ergebnis des Review: Die Studien 2 und 3 sind klar besser als die Studie 1. Daraus kann man dann den Schluss ziehen, dass die Studien 2 und 3 „recht haben“, also die Massnahme X nicht sonderlich hilft, die Fehler bei Umfragen zu reduzieren.
Ähnlich wie beim Konsumentenschutz, der ja Konsumgüter nach „sehr empfehlenswert“, „empfehlenswert“, „weniger empfehlenswert“ und „nicht empfehlenswert“ einteilt (klassifiziert), gibt es so etwas Ähnliches auch bei der Qualitätsbeurteilung von Studien.
Um zu beurteilen, ob man den Studienergebnissen trauen kann, verwenden wir hier (in diesem QueerWiki-Artikel) die vier Stufen der Vertrauenswürdigkeit des GRADE-Systems.
Das GRADE -System kennt vier Qualitätsstufen von Studien:

  • Sehr niedrige Vertrauenswürdigkeit der Studie(n) bedeutet, dass wir uns auf die Studienergebnisse nicht verlassen können und dass die Studien keine brauchbare Grundlage für Entscheidungen (etwa für oder gegen die Massnahme X zur Fehlerreduktion) abgibt (unbrauchbare „Schrottstudien“).
  • Niedrige Vertrauenswürdigkeit der Studie(n)ist gleichbedeutend mit: „Massnahme X könnte die Fehleranzahl von vorneherein vermindern“. Die Studienergebnisse sind nur mit entsprechender Vorsicht heranzuziehen; Massnahme X kommt eventuell in Betracht. für Entscheidungen nutzen.
  • Moderate Vertrauenswürdigkeit: Hier sind wir schon eher auf der sicheren Seite, die Studienergebnisse belegen die Wirksamkeit z.B. der Massnahme X ganz gut. Man sollte also Massnahme X in der Regel ergreifen, um Befragungsfehlern vorzubeugen.
  • Hohe Vertrauenswürdigkeit: Die Studien sind ausgezeichnet und „wasserdicht“, die Studienergebnisse erzwingen förmlich der Einsatz der Massnahme X zur Fehlerreduktion. Man spricht dann auch von Goldstandard oder (moderner) vom Referenzstandard.

Also: Die Bewertung moderat oder hoch bedeutet, dass die vorliegende Qualität der Studien unter Beachtung aller Einschränkungen eine brauchbare Basis für Entscheidungen abgibt, um bestimmte Massnahmen gegen den Fehlerteufel einzusetzen.
Im Folgenden werden verschiedene Massnahmen vorgestellt und danach beurteilt, ob und inwiefern sie Nonresponse-Fehler ausschalten.

Wahrscheinlich haben die meisten von uns schon einmal aufgelegt, wenn uns ein Meinungsforschungsinstitut angerufen hat, um beispielsweise herauszufinden, was wir von unserer Autowerkstatt halten. Oder wir haben ein Mail von der Marketingabteilung des Mobilfunkanbieters weggeklickt. Tatsächlich ist es gar nicht unerheblich, auf welche Art die Fragebogen zu den Menschen kommen: per Telefon, per Post, als Web-Formular oder sogar persönlich.
Für repräsentative Umfragen ist die Post das Mittel der Wahl, denn postalische Umfragen haben noch immer eine höhere Response-Rate als web-basierte Umfragen. Und diese wiederum schneiden meist besser ab als nicht angekündigte telefonische Umfragen, wie sie oft für Marktforschung verwendet werden.
Die Vertrauenswürdigkeit der Studien, die dieses Ranking belegen, ist als moderat einzustufen.
(Daikeler 2019, Pew Research 2019, Blumenberg 2018 – Intervention: Delivery/ Contact Methods, Mode of Administration)

Die wenigsten Menschen werden gern mit neugierigen Fragen einfach „überfallen“, egal ob am Telefon oder anderswo. Daher hat es sich für Auftraggebende von Umfragen als nützlich erwiesen, eine Einladung zu versenden oder die Umfrage anderweitig anzukündigen, beispielsweise mit einem Anruf oder sogar einer Einladung in einem Gespräch oder im Rahmen einer Veranstaltung. Dabei ist es weiter von Vorteil, wenn die Eingeladenen sich persönlich angesprochen fühlen. Das wäre im E-Mail z. B. ein Name schon in der Betreffzeile.
Die Vertrauenswürdigkeit der relevanten Studien ist als hoch einzustufen.
(Daikeler 2019, Burgard 2020, Edwards 2009 u. a. – Intervention: Personaliziation of invitation, Prenotification)

Auch bei gutem Willen vergessen Menschen manchmal, etwas zu erledigen. Das ist bei Umfragen nicht anders. Bei wichtigen Umfragen lohnt es sich daher, die Menschen mindestens einmal an die Umfrage zu erinnern. Bei postalischen Umfragen sollte man dabei den Fragebogen noch einmal versenden, falls das Original versehentlich ins Altpapier gewandert ist.
Die Vertrauenswürdigkeit der Studien zu Nachfassaktionen ist als hoch einzustufen.
(Nakash 2006, Van Gelder 2019, Yammarino 1991 – Intervention: Follow-up/ reminders)

Sobald eine Umfrage in einem Gespräch stattfindet, egal ob am Telefon oder persönlich, müssen wir zwischenmenschliche Effekte berücksichtigen. Daher hat es sich als nützlich erwiesen, Menschen, die für eine Umfrage die Interviews führen, zu trainieren. Sie müssen lernen, die Fragen so zu stellen, dass jedes Interview einheitlich ist und ihre persönliche Meinung nicht die Antworten beeinflusst. Zudem werden sie es mit mehr oder weniger motivierten und mehr oder weniger umgänglichen Befragten zu tun haben, sodass sie lernen müssen, Menschen zur Kooperation zu bewegen.
Die Zuverlässigkeit der Studien, die einen günstigen Einfluss guter Interviewführung auf Nonresponse belegen, ist als moderat einzustufen.
(Daikeler 2020 – Intervention: Interviewer experience, Interviewer socio-demographic characteristics)

Ebenfalls nicht ganz ohne ist die Frage, wo das Interview stattfindet bzw. in welchem Rahmen der Fragebogen verteilt wird. Logischerweise sollte ein persönliches Gespräch für eine geringere item nonresponse auch persönlich bleiben. Die britischen NATSAL-Studien, wo es im Sexualität ging, lösten das Problem zum Beispiel, indem eine Person die Fragen stellte, die Befragten ihre Antworten aber computergestützt eingaben, sodass andere Menschen im Haushalt nicht lauschen konnten.
Die Vertrauenswürdigkeit der entsprechenden Studienergebnisse für solche Massnahmen ist insgesamt als moderat einzustufen. (Natsal-3 – Interviewer expectations)

Bei Fragebogen ist es hingegen von Vorteil, wenn sie im Rahmen einer Veranstaltung verteilt werden. Es erfolgt dann nicht nur eine persönliche Einladung, sondern es besteht auch eine gewisse positive Beeinflussung, weil wir dann Menschen sehen, die ihre Fragebogen ausfüllen.
Die Vertrauenswürdigkeit der Studienergebnisse zu Massnahmen, die das Setting einer Umfrage betreffen und Nonresonse-Fehler minimieren, ist als moderat einzustufen.
(Yarger 2013 – Survey setting)

Bei manchen Internetumfragen ist es sehr auffällig, dass sie quasi nur von jungen, gut ausgebildeten Menschen ausgefüllt wurden. Tatsächlich scheinen in den meisten Umfragen gut ausgebildete Menschen überrepräsentiert.
Außerdem beeinflusst die Zielgruppe, ob die Rücklaufquote höher oder niedriger ist. Die Allgemeinbevölkerung und Menschen mit komplexen Berufen (wie zum Beispiel Ärzt:innen) sind meist weniger auskunftsfreudig als Patient:innen oder Studierende.
Die Vertrauenswürdigkeit der Studienergebnisse zu diesen Effekten ist niedrig.
(Whelan 2015 – Sample characteristics, Target population type, Economic conditions, National/ country specifics, Technological environment, Neighborhood, Socio-demographic characteristics, Other (SE) …

Schauen wir zunächst ganz naiv hin, muss uns die Menschenkenntnis verraten, dass die meisten Menschen bei einem Thema, das sie wichtig oder interessant finden, eher motiviert sind, an einer Umfrage teilzunehmen. Das Umfragethema sollte also schnell ersichtlich sein und so interessant wie möglich dargestellt werden.
Die Vertrauenswürdigkeit der entsprechenden Studienergebnisse hierzu ist als hoch einzustufen.
Allerdings sind manche Themen ziemlich sensibel, zum Beispiel, weil sie kulturell schambehaftet sind oder sogar nach eventuellen Straftaten fragen, wie zum Beispiel zum Drogenkonsum. In diesem Fall ist zu erwarten, dass die Response-Rate sinkt.
Die Vertrauenswürdigkeit in die Ergebnisse der einschlägigen Studien ist ebenfalls als hoch einzustufen.
(Edwards 2009 – Questionnaire topic)

Gerade, wenn ein Umfragethema sensible Daten erfragt, muss besonders auf die Vertraulichkeit geachtet und diese auch kommuniziert werden.
Als ein Negativbeispiel in den letzten Jahren fiel der Autorin eine kommerzielle Umfrage zum Thema „Queere Erfahrungen im Gesundheitswesen“ auf. Die Erstellenden hatten sich nicht einmal die Mühe gemacht, ihre Umfrageseite mit einem Impressum und einer Datenschutzerklärung zu versehen.
Wird das Datenschutzkonzept erfolgreich kommuniziert, kann meist ein erheblicher Teil der eigentlich zu erwartenden hohen Nonresponse vermindert werden.
Die Vertrauenswürdigkeit der relevanten Studienergebnisse zu diesen Massnahmen ist als hoch einzustufen. \\(Edwards 2009, Singer 1995 – Anonymity/ Confidentiality/ Data Security)

Vertraulichkeit hat auch etwas mit Vertrauen zu tun. Ob es nur daran liegt, wissen wir nicht, aber tendenziell schneiden Umfragen, die von Universitäten durchgeführt werden, bezüglich Nonresponse besser ab als solche, die von Regierungen oder Firmen in Auftrag gegeben wurden.
Die Vertrauenswürdigkeit der einschlägigen Studienergebnisse ist als moderat einzustufen.
(Edwards 2009, Cehovin 2020 – Sponsorship/ Researcher)

Um den Survey Burden abzufedern, werden bei Umfragen häufig Belohnungen verteilt. Belohnungen können die Rücklaufquote tatsächlich verbessern, wobei der Effekt mit zunehmendem Wert nur noch geringfügig grösser wird. Es stellte sich dabei heraus, dass selbst kleine bedingungslose Geschenke wirksamer sind als solche, die erst bei Abgabe des Fragebogens herausgegeben werden. Es hat sich ausserdem erwiesen, dass geldwerte Belohnungen (wie Geld, Einkaufsgutschein) besser wirken als nicht-monetäre Belohnungen (wie Gegenstände, Lottoscheine).
Die Vertrauenswürdigkeit der relevanten Studien ist als hoch einzustufen.
(Schneck 2013, Caporaso 2014, Mercer 2015 – Incentives)

Tatsächlich verbessert sich die Response-Rate bei kürzeren Fragebogen. Wichtig ist hier zu beachten, dass es nicht allein um die Anzahl der Seiten geht, sondern dass wir die Anzahl der Fragen betrachten müssen. Ausserdem müssen wir betrachten, wie die Fragen aufgebaut sind. Handelt es sich nur um etwas zum Ankreuzen (geschlossene Fragen) oder ist es erforderlich, selbst Text zu erstellen (offene Fragen)? Offene Fragen können zwar in manchen Fällen die Datenqualität positiv beeinflussen, allerdings dauert es länger, sie zu bearbeiten, und es erfordert mehr „Hirnschmalz“ als simples Multiple Choice.
Von Vorteil ist auch, wenn der Text gut lesbar (weisser Hintergrund) und die Bearbeitung insgesamt so benutzerfreundlich wie möglich ist. So empfiehlt sich bei web-basierten Umfragen eine Optimierung für mobile Geräte.
Die Vertrauenswürdigkeit der Studien ist hoch.
(Mavletova 2015, Nakash 2006, Edwards 2009 – Format of questions, Questionnaire format, Survey burden)

Gerade bei kommerziellen Umfragen erhalten wir selten eine Auskunft darüber, wie viele Menschen sie nicht beantwortet haben, und wir wissen selten, wie die Stichproben zustande kamen. Bei vielen Meinungsforschungsinstituten ist das sogar eine Art Betriebsgeheimnis. Hier ist also grundsätzlich Vorsicht geboten, bevor wir daraus allgemeingültige Rückschlüsse ziehen.
Für wissenschaftliche Arbeiten hingegen sollte sowohl die Methode zur Auswahl der Befragten unter „Methoden“ als auch die Rücklaufquote unter „Ergebnisse“ vermerkt sein. Fehlen diese Auskünfte, müssen wir ebenfalls bei der Bewertung vorsichtig sein. Wenn es um sensible Daten geht, ist auch die item nonresponse interessant.
Wenn wir uns anschauen wollen, wie sorgfältig eine Umfrage durchgeführt wurde, können wir also nicht nur die Response-Rate betrachten, sondern uns auch fragen, ob mit den genannten Massnahmen versucht wurde, das Ergebnis zu verbessern.


Autorinnen: Corinna Wintzer, Claudia Haupt (Coautorin)


  • umfragen_nonresponse_fehler.txt
  • Zuletzt geändert: 2024/03/13 12:31
  • von c.haupt