Reliabilität

Aus myKoWi.net - Wiki
Wechseln zu: Navigation, Suche

Inhaltsverzeichnis

Validität

,Reliabilität‘ und ,Validität‘ beziehen sich nicht auf einfache oder komplexe theoretische Aussagen, sondern einzig und allein auf zwei Komponenten des sozialwissenschaftlichen Messvorganges - genauer: auf zwei Aspekte des Messinstruments. Dabei bezieht sich Validität auf die Fähigkeit des Messinstruments, das zu messen, was gemessen werden soll. So ist die Validität eines Fieberthermometers recht hoch, wenn es das Ziel des Messvorganges ist, die jeweilige Körpertemperatur zu messen. Das Thermometer reagiert nämlich sehr deutlich auf die Körpertempe¬ratur - auch wenn es das an unterschiedlichen Körperstellen unterschiedlich tut. Weil das Thermometer auf die Körpertemperatur erkennbar reagiert und nur auf sie, misst es das, was es messen soll. Deshalb ist die Messung valide.


Reliabilität

Da das Fieberthermometer aber nicht nur auf die Körpertemperatur reagiert, sondern das immer auch in der gleichen Weise, ist es auch reliabel. Das Thermometer reagiert stabil, man kann seinen Meßergebnissen vertrauen. Validität ist also gegeben, wenn das Messverfahren eine adäquate ,Abbildung‘ des vermessenen Originals hergestellt hat und Reliabilität ist gegeben, wenn das Messinstrument stabil, also stets in gleicher Weise auf die untersuchte Welt reagiert hat und reagie¬ren wird.

Prüfkriterien für Validität und Reliabilität

Sind Validität und Reliabilität gegeben, dann kann man sicher sein, dass die Daten sich in der Tat auf den untersuchten Gegenstandsbereich beziehen und zugleich in einem festen und bestimmten (und bestimmbaren) Verhältnis zu ihm stehen. Hat man oder genauer: hätte man einen valide und reliabel erhobenen Datenbestand, dann ließe sich viel Nützliches über die Welt sagen. So weit - so gut. Aber es gibt auch ein Problem: Das Problem besteht nämlich darin, dass Reliabilität und Validität trotz ihrer exakten Bestimmung bei näherer Betrachtung sich leicht verflüchtigen. Denn die entscheidende Frage lautet: Wie lässt sich prüfen, ob ein Messinstrument valide und/oder reliabel ist?

Angesichts und eingedenk des oben angeführten Fieberthermometers zur Ermittlung der Köpertemperatur scheint die Antwort auf die Frage wenig kompliziert und schnell beantwortet. Denn es nicht nur offensichtlich, sondern zudem Teil des auch von Experten geteilten Wissens, dass Fieberthermometer auf die Körpertemperatur ansprechen (also valide sind) und dass sie ausgesprochen stabil auf diese Tempera¬tur reagieren (also reliabel sind).

Letzteres (also die Reliabilität) ließe sich auch für den Ungläubigsten leicht be¬weisen: so könnte man z.B. den Messvorgang nach einer kurzen Weile wiederholen, und es würde sich zeigen, dass das Messinstrument den gleichen Wert anzeigt wie zuvor - natürlich vorausgesetzt, man würde an derselben Körperstelle desselben Menschen eine gleiche Zeit lang messen, und natürlich vorausgesetzt, der untersuchte Mensch hätte sich in der Zeit zwischen der ersten und zweiten Messung nicht massiv erkältet. Ganz Ungläubigen könnte man zur Überprüfung der Reliabilität auch noch ein anders Prüfverfahren anbieten: so könnte man die Kör¬pertemperatur desselben Menschen an der selben Körperstelle eine gleiche Zeit lang erst mit einem analogen, dann mit einem digitalen Thermometer und schluss¬endlich auch noch mit einem Thermometer zur Bestimmung von Wassertemperatu¬ren erheben und dann die Werte miteinander vergleichen. Würden die Ergebnisse dieser parallelen Messungen alle in einem festen Verhältnis zueinander stehen, dann wäre die Stabilität des zu untersuchenden Messinstrumentes ohne jeden Zweifel bewiesen.

Auch mit der Validität dürfte es im Hinblick auf die Fähigkeit des Thermometers, die Körpertemperatur zu messen, keine Zweifel geben. Ist es doch offensichtlich und Teil des auch von Experten geteilten Wissens, dass Thermometer auf die Wärme bzw. Kälte von Haut reagieren und nicht auf die Anzahl der Herzschläge oder den Grad der Sättigung des Menschen, dem dieses schlagende Herz gehört. Ganz Ungläubigen könnte man auch noch erklären, was ,Körpertemperatur‘ eigentlich ist bzw. wie Wissenschaftler ,Körpertemperatur‘ definieren und wieso das Thermometer dazu in der Lage ist, das zu registrieren, was ,Körpertemperatur‘ ist. Aber das wäre schon nicht mehr so leicht. Da fingen die ersten Schwierigkeiten wohl an.

Komplizieren würde sich der Nachweis von Reliabilität und Validität, wenn es nicht um so einfache Messinstrumente ginge wie ,Thermometer‘ und nicht so einfache Phänomene wie ,Körpertemperatur‘. Wollte man z.B. prüfen, ob ein Fragebogen oder ein Interview oder gar ein Experiment geeignet ist, solche Phäno¬mene wie ,Autorität‘, ,Intelligenz‘, ,Liebe‘ oder ,Religiosität‘ zu messen, (und in der Sozialwissenschaft sind das einige der alltäglichen Messinstrumente, die eingesetzt, und einige der Phänomene, die untersucht werden), dann wachsen sich die kleinen Probleme schnell zu recht großen aus.

Zum Beispiel bei der Reliabilitätsprüfung: Erbringt ein Intelligenztest denselben Wert, wenn man ihn an derselben Person wiederholt, oder hat die Person nicht beim ersten Test einiges gelernt, so dass der zweite Test notwendigerweise besser ausfällt? Zum Beispiel Validität: Was ist Religiosität, was Liebe? Wie soll man sie messen? Ist z.B. die Gefährlichkeit des Drachen, gegen den man bereit ist zu kämpfen, ein guter Indikator für die Größe der Liebe, oder gar der Preis der Juwe¬len, die man dem anderen schenkt, oder doch die Bereitschaft, die eigenen Inter¬essen hinter die des Geliebten zu stellen?

Alle diese Probleme mit der Überprüfung von Reliabilität und Validität resultieren aus einer erkenntnistheoretisch gefütterten Unmöglichkeit: entgegen tief sitzender Hoffnungen, und da sind sich nicht nur die meisten Sozialforscher, sondern auch die Verfasser von Methodenbüchern zur empirischen Sozialforschung einig, ist die Wirklichkeit nämlich nicht wirklich sichtbar. Über was wir allein verfügen, das sind ,dichte‘ und manchmal auch systematische Beschreibungen der Wirklichkeit, Theorien über sie, die wenn auch nicht wahr, so doch ,wahrheitsähnlich‘ sein können. Und weil wir in der Forschung nicht die reinen Fakten sehen können, also die ,wahre‘ Liebe, können wir auch nicht durch direkten Vergleich exakt bestim¬men, ob unsere Vorstellung von Liebe sich mit dem ,Original‘ deckt. Und weil alle Messmethoden notwendigerweise nie völlig exakt sind (also Messfehler aufwei¬sen), lernen wir in unseren konkreten Messungen nie den ,wahren‘ Messwert kennen, sondern diesen verunreinigt durch einen unbekannten Messfehler. Wegen dieser Unmöglichkeit, die eigenen theoretischen Konstrukten durch direkten Au¬genschein mit der ,wahren Wirklichkeit‘ zu vergleichen, wurden vor allem in den letzten fünf Jahrzehnten einige Verfahren entwickelt und erprobt, um auf indirektem Wege die Reliabilität und Validität von Messvorgängen zu bestimmen. Be¬währt haben sich einige, also nicht alle, wobei gesagt werden muss, dass auch nicht alle geeigneten Tests gleich ,gut‘ sind. Einige sind recht anspruchvoll, andere dagegen nur von geringer Aussagekraft. Deshalb kann im weiteren auch nicht mehr von der Reliabilität oder der Validität gesprochen werden, sondern nur noch von Reliabilität und Validität bezogen auf ein bestimmtes Messverfahren.

Reliabilitätsprüfung

Für die Bestimmung der Reliabilität eines Messinstruments, also z.B. eines Fra¬gebogens, eines Interviews oder eines Beobachtungsverfahrens, gibt es im wesentlichen drei Tests. Zwei hatte ich oben im Thermometerbeispiel bereits erwähnt - nämlich die Test-Retest-Methode und das Parallelverfahren. Außerdem wird noch häufig die sogenannte Testhalbierung eingesetzt.

Test-Retest

Mit dem Begriff ,Test-Retest‘ ist gemeint, dass derselbe Test nach einer gewissen Zeit unter den gleichen Bedingungen mit denselben Personen wiederholt wird. Je mehr die Messergebnissen der ersten Messung mit den Ergebnissen der zweiten Messung übereinstimmen, desto mehr gilt das Messinstrument als reliabel. Reliabi¬lität (ähnliches gilt später auch für die Validität) sind also in dieser Perspektive keine absolute Größen mehr, die man erreicht oder nicht, sondern sie werden mit skalierten Werten angegeben, d.h. der jeweilige Wert gibt an, wie nahe man der Reliabilität gekommen ist. Reliabilität gilt dabei als erreicht, wenn ein bestimmter Schwellenwert überschritten wird, und sie gilt als verfehlt, wenn dieser Schwellen¬wert unterschritten wird. Dass die Test-Retest-Methode wegen der (unterschiedli¬chen) Lernfähigkeit der Untersuchten ihre Tücken hat, war bereits gesagt worden.

Parallel-Test

Die zweite Methode, also der Parallel-Test, misst unter gleichen Bedingungen dieselben Personen nicht nur mit dem zur Untersuchung anstehenden Messinstru¬ment, sondern zugleich noch mit einem anderen, von dem man mit guten Gründen glauben kann, dass es mit dem zu untersuchenden äquivalent ist. Je mehr die Messergebnissen des zu untersuchenden Messinstruments mit den Ergebnissen des äquivalenten Messinstruments übereinstimmen, desto höher die Reliabilität des Messinstruments.

Testhalbierung

Im Grunde sehr ähnlich ist die Testhalbierungsmethode angelegt. Hier entwickelt man jedoch nicht zwei parallele Testbatterien, sondern unterteilt die eingesetzte Testbatterie später bei der Auswertung in zwei (zufällig oder systematisch ausge¬wählte) Hälften. Auch hier gilt, dass die Reliabilität um so höher ist, je mehr die arithmetischen Mittelwerte der Ergebnisse der beiden Hälften übereinstimmen.

Allerdings besagt eine hohe Reliabilität erst einmal noch wenig. Sie besagt nur, dass das Instrument das, was es misst, stabil misst. Ein hoher Zuverlässigkeitswert bedeutet jedoch nicht viel, wenn nicht zugleich sicher gestellt ist, dass auch das Gewünschte gemessen wird. So ist z.B. das sehr reliabel Fieberthermometer völlig unbrauchbar, wenn man damit die ,Liebesintensität‘ von Personen messen will, auch wenn gelegentlich auch mit der Liebe ein Temperaturanstieg einhergeht. Reliabilität ist also nur eine notwendige Bedingung wissenschaftlichen Messens, jedoch keine hinreichende.

Validitätsprüfung

Sehr viel wichtiger ist die Klärung der Frage, ob das Messinstrument valide ist. Auch hier haben sich im wesentlichen drei Methoden bewährt - die Messung der Validität an der inhaltlichen Bestimmung des Untersuchungsphänomens, dann die Messung an einem Außenkriterium und schließlich die Konstruktvalidität.

Inhaltliche Bestimmung von Validität

Die Inhaltsvalidität nimmt ihren Ausgang von der Konstruktionstätigkeit des Forschers. Er muss nämlich seinen Forschungsgegenstand (also z.B. Religiosität) möglichst umfassend, also in allen Kategorien und Dimensionen erfassen und auch vermessen. So könnte für einen Forscher sich ,Religiosität‘ aus den Kategorien ,Gottesvorstellung‘,,Glaubensinhalte‘ und ,kirchliches Engagement‘ zusammenset¬zen. Alle diese Kategorien müßten dann wieder in Dimensionen unterteilt werden und diese würden an bestimmten und beobachtbaren Indikatoren sichtbar. Auf diese Weise ergäbe sich eine Operationalisierung von ,Religiosität‘, also eine schrittweise Konkretisierung theoretischer Konstrukte und zwar so lange, bis die aus der theoretischen Konstruktion abgeleiteten Konkretionen sich an die empiri¬sche Forschungspraxis ankoppeln lassen. Idealerweise ist ein Messinstrument valide, wenn es alle Bestandteile des Untersuchungsgegenstandes erfaßt. Kann der Forscher nicht alle Kategorien berücksichtigen, sollte er zumindest eine repräsenta¬tive Stichprobe ziehen oder aber alle wesentlichen Kategorien berücksichtigen. Allerdings stellt sich auch hier das nicht geringe Problem (kann er doch nicht das Original mit seinem Konstrukt vergleichen), wie der Forscher beurteilen kann, ob er tatsächlich alle oder zumindest alle wesentlichen Bestandteile des Untersu¬chungsgegenstandes erfaßt hat. Deshalb ist der Forscher gut beraten, wenn er nicht alleine die zu untersuchenden Kategorien auswählt, sondern wenn er prüft, was die Fachliteratur, also letztlich die Kollegen für wesentlich halten. Aber allzu sehr lässt sich auf diese Weise das Validitätsproblem nicht mindern, sind doch die Kollegen (zumindest erkenntnistheoretisch) in keiner besseren Lage als der um Rat suchende Forscher.

Außenkriterium für Validität

Die zweite Methode der Validitätsprüfung arbeitet mit dem ,Trick‘, sich nicht mehr mit dem Inhalt des Untersuchungsgegenstandes auseinanderzusetzen, sondern diesen als ,black box‘ zu behandeln und zu fragen, ob es ein Außenkriterium gibt, mit dessen Hilfe feststellbar ist, ob z.B. ein Fragebogen ,Religiosität‘ misst. Und in der Tat gibt es solche Außenkriterien. So könnte man zwei Gruppen, von denen man weiß, dass sie sich im Hinblick auf Religiosität extrem unterscheiden (z.B. Atheisten und streng gläubige Pietisten), mit einem Fragebogen befragen. Be¬kommen dann die Pietisten ,hohe Religiositätswerte‘ und die Atheisten sehr niedri¬ge, dann spricht einiges dafür, dass der Fragebogen ,Religiosität zu erfasst. Aber man kann auch die Validität an einem Kriterium messen, von dem man sicher ist, dass es mit Religiosität stabil einhergeht, so z.B. die geringe sexuelle Freizügigkeit. Personen mit geringen Religionswerten müssten dann sexuell freizügiger sein als Personen mit hohen Werten. Zudem könnte man als drittes Verfahren Voraussagen über zukünftiges Verhalten treffen, von dem man weiß, dass es mit Religiosität einhergeht, so z.B. die kirchliche Trauung. Menschen mit hohem Religiositätswerten müssten sich dann signifikant häufiger kirchlich trauen lassen als Menschen mit geringen Werten. Aber bei allen diesen Außenkriterien ist nie sicher, ob die enge Verbindung (die Korrelation) von Test und Außenkriterium darauf zurück¬zuführen ist, dass beide das gleiche erfassen, sondern die Wissenschaftsgeschichte ist voll von teilweise amüsanten Beispielen dafür, dass die Korrelation sich aus einer nicht erkannten Hintergrundsvariablen ergibt.

Konstruktvalidität

Gehen Inhalts- und Kriteriumsvalidität ganz selbstverständlich davon aus, dass Wissenschaftler aufgrund eigener Überzeugungen oder aufgrund akzeptierter Theorien Angaben darüber machen können, wann ein Gegenstandsbereich valide erfasst ist, bzw. welche Außenkriterien geeignet sind, Validität zu erweisen, so nimmt das Verfahren der Konstruktvalidität diese Unterstellung nicht unhinterfragt hin. Konstruktvalidität ist demnach nämlich nur dann erreicht, wenn nicht nur gesagt wird, wie der untersuchte Gegenstandsbereich operationalisiert werden soll, sondern zugleich untersucht wird, ob die gedanklichen Konstrukte des Wissen¬schaftlers auch tatsächlich dem Gegenstandbereich gerecht werden. Die Kon¬struktvalidität konfrontiert die Konstrukte also nicht mehr nur mit der Theorie, sondern vor allem und vorrangig mit der Empirie, was bedeutet, dass Konstruktvalidität einen oft langwierigen Forschungsprozess anstößt, dessen Ergebnis ein valides Messinstrument ist. Es wird also nicht mehr fraglos unterstellt, dass geringe sexuelle Freizügigkeit ein guter Indikator für hohe Religiosität ist, sondern es wird erst empirisch geprüft, ob dem wirklich so ist.

Wohl wegen der Komplexität dieses Verfahrens gilt die Konstruktvalidität als Königsweg der Validitätsprüfung, bringt sie doch hoch differenzierte Messinstrumente hervor. Allerdings ist auch die Konstruktvalidität nicht unbestritten. So wird (im übrigen zurecht) eingewandt, dass dieses Verfahren das zu lösende Problem endlos und ungelöst vor sich herschiebt. Denn um die Triftigkeit der Konstrukte erster Ordnung zu überprüfen, sind vorab die Reliabilität und Validität dieser Messoperationen zu prüfen, was heißt, dass wir es mit der Reliabilität und Validität zweiter Ordnung zu tun haben, da sie sich ja jetzt auf die Prüfung des Prüfvorganges beziehen. Will man nun die Validität zweiter Ordnung ermitteln, kann man dies mit dem Verfahren der Konstruktvalidität angehen, was bedeutet, dass eine Konstrukt zweiter Ordnung erzeugt wird, für die wiederum die Reliabilität und Validität der dritten Ordnung zu prüfen sind. Dies kann man wie bei einer russischen Puppe fast endlos weiterführen, ohne das ein Endpunkt in Sicht kommt. Allerdings konta¬miniert diese Endlosigkeit die Konstruktvalidität nicht, treibt sie doch auf der Rückseite des Forschungsprozesses kumulativ ein immer differenziertes Mess¬verfahren hervor, das zwar vielleicht nicht mit absoluter Gültigkeit das untersuchte Phänomen erfaßt, aber doch alles Wesentliche.

Schlussfolgerungen

Fazit: Die hier besprochenen Überprüfungsstrategien versuchen mit dem Problem umzugehen, dass eine über sich selbst aufgeklärte Sozialforschung nicht mehr problemlos von der absoluten Zuverlässigkeit und absoluten Gültigkeit ihrer Aussagen sprechen kann. Die Frage nach der Reliabilität und Validität eines Messinstruments hat sich schlussendlich gewendet in die Frage nach der angemessenen Operationalisierung des Gegenstandsbereiches und die Frage nach der Konstruktion eines passenden Messverfahrens. Aber auch mit sehr hoch reliablen und sehr hoch validen Messverfahren (auch das haben die zurückliegenden Überlegungen gezeigt) gelingt es den Sozialforschern nicht, die Wirklichkeit absolut genau in numerischen Daten abzubilden, also einen freien Zugang zur Wirklichkeit zu schaffen. Erreicht werden können nur Näherungswerte, keine absolute Aufklärung und Gewissheit.

Die entscheidende Frage lautet deshalb, wie trotz diverser erkenntnistheoretischer Bedenken gute Qualitätskriterien für die Zuverlässigkeit und für die Gültigkeit sozialwissenschaftlicher Messung bestimmt und kanonisiert werden können. Denn nur wer zuverlässig und gültig misst, gewinnt auch für die daraus entwickelten Theorien und Schlussfolgerungen Zustimmung und erlangt Vertrauen. Und nur wenn zuverlässig und gültig gemessen wird, lassen sich Vorschläge für teils gravierende Veränderungen der Welt begründen und was noch wichtiger ist - verantworten.


Autor: Jo Reichertz

Translate
Persönliche Werkzeuge