Informelle Tests – Normierte Tests – gültige Tests Uwe Wiest

Eine Präsentation zu dem Thema:

Sie wollen es genauer wissen?

Lesen Sie den Ausschnitt aus meinem Buch "Schulpsychologie".

Wenn Sie neugierig auf weitere Details der Testkonstruktion sind:

Kaufen oder leihen Sie sich den Lienert und Raatz.

Mein Vorlesungs-Manuskript „Testdiagnostik für die Schule“

Doch nun kurzgefasst:

Anliegen

Lehrkräfte, Schulpsychologische Fachkräfte, entsprechend qualifizierte Mitarbeiter in Landesinstituten für Schule oder Pädagogik erfinden eigene Testverfahren.

Sie haben unter Umständen aufgrund ihrer Kenntnisse von Schule und Unterricht bessere Möglichkeiten, sinnvolle, das heißt altersgemäße, lehrplanorientierte und unterrichtsbezogene Aufgabensammlungen zusammenzustellen und die Aufgaen nach den Gesichtspunkten der klassischen Testtheorie zu überprüfen und auszuwählen. Das Ergebnis sind relativ kurze und aussagefähige Verfahren, die man für eine Vielzahl von Fragestellungen einsetzen kann.

Natürlich werden die genannten Fachleute nicht in der Lage sein, solche Verfahren zu normieren. Das ist aber für viele Fragestellungen auch gar nicht erforderlich oder sogar irreführend. Oft reicht es schon, innerschulische oder sogar städtische Vergleichswerte zu erheben.

Hierzu einige Gesichtspunkte:

Einleitung

Tests werden nach anerkannten Regeln konstruiert und normiert.

Das Standardwerk der Testkonstruktion ist : Lienert-Raatz, Testaufbau und Testanalyse.
Dort finden Sie alle Anweisungen und Berechnungsformeln, die erforderlich sind.

Der Vorteil von Testverfahren gegenüber am Schreibtisch erdachter Prüfungen liegt in der

  • Aufgabenanalyse und der

  • Normierung.

Aufgabenanalyse

Die Aufgabenanalyse hat nur sehr bedingt etwas mit dem Inhalt des Tests und dem konkreten Prüf-Gegenstand zu tun.

Zunächst geht es darum, einen Aufgabentypus zu finden, der leicht auswertbar ist. Meistens handelt es sich um sogenannte Mehrfachwahl-Aufgaben. Alle Aufgaben, deren Lösungen frei formuliert werden, sind von der Auswertung her mehr oder weniger problematisch, ihre Objektivität ist geringer. Man behilft sich mit Katalogen von Aufgabenlösungen, die vorliegende Lösung wird mit diesen verglichen.

Die eigentliche Aufgabenanalyse hat das Ziel, unbrauchbare Aufgaben auszuschließen und den Test damit kürzer und aussagekräftiger zu machen.

Aufgaben-Schwierigkeit: Prozentanteil der Leute, die die Aufgabe richtig lösen.

Bei reinen Geschwindigkeitstests wählt man Aufgaben gleicher Schwierigkeit. Beispiel: Quersummen von Zahlenreihen mit 8 Zahlen ausrechnen.

Bei Niveautests, also Tests ohne oder mit einer großzügigen Zeitbegrenzung wählt man Aufgaben mit ansteigender Schwierigkeit, also leichte, mittlere und schwere.

Aufgaben-Trennschärfe: Insgesamt Leistungsstarke sollen auch diese Aufgabe lösen, Leistungsschwache sie nicht lösen können. Der Statistiker sagt: die Aufgabenlösung soll mit dem Testgesamtwert (minus dem Wert der betrachteten Aufgabe) hoch korrelieren.

Warum ist das wichtig? Jede Aufgabe soll zu dem Gesamtergebnis des Tests beitragen. Sie ist sozusagen für sich genommen ein aussagekräftiger Test. Aufgaben, die das nicht leisten, verlängern den Test unnötig und schwächen die Zuverlässigkeit der Testaussage. Also: raus damit.

Und wenn man einen Test will, der aus unterschiedlichen Leistungskomponenten besteht? Dann muss man mehrere Tests konstruieren, sozusagen eine Testbatterie.

Die Trennschärfe-Berechnung ist etwas umständlich, weil man für jede Aufgabe den Gesamtwert minus dem Ergebnis der einzelnen Aufgabe neu berechnen muss.

Die Anzahl der verbleibenden Aufgaben bestimmt mit über die Zuverlässigkeit (Reliabilität) eines Tests. Zwanzig bis vierzig Testaufgaben, das ist in Ordnung.

Um zu der vorläufigen Endform zu gelangen, muss jetzt beschrieben werden: wie ist die Testanweisung, wie sollen die Testbedingungen sein, wie wird das Material gestaltet? Insgesamt soll der Test so aufgebaut sein, dass die Personengrupe, für die das Verfahren gedacht ist, mit der Testgabe und der Testauswertung gut zurecht kommt.


Gütekriterien

Zuverlässigkeit (Reliabilität): es gibt zwei Aspekte:

Der Test soll bei einer Wiederholung zu derselben Einstufung einer Leistung führen (Wiederholungszuverlässigkeit oder Stabilität).

Teile des Tests sollen zur selben Leistungs-Einstufung führen wie der gesamte Test (Innere Konsistenz).

Gültigkeit oder Validität: das ist schon fast ein inhaltlicher Gesichtspunkt: es geht um die

Übereinstimmung der Leistungs-Einstufung mit einem Außenkriterium, das ebenfalls zählbar (quantifizierbar) sein muss. Beispiel: Lesetestergebnis mit der Zeugnis-Note im Lesen. Gern wird auch die Übereinstimmung mit einem älteren Test des gleichen Merkmals als Beleg für die Validität genommen. Wenn es um ein bestimmtes Verhalten geht, kann man Beobachter auch das Verhalten auf einer Skala von meinetwegen 1 bis 5 einschätzen lassen und hat dann sein quantitatives Kriterium.

Die Validität ist ein ganz kniffeliges Ding, vor allem, wenn das Leistungsmerkmal nicht eindeutig definiert werden kann oder wenn es unterschiedliche Auffassungen über das Kriterium gibt. Was ist eigentlich Lesen? Was Lernbehinderung? Was Intelligenz? Konzentrationsfähigkeit?

Manche Testautoren machen gar keine empirischen Angaben zur Validität, sie nennen das „logische Validität“, sieht man doch, was der Test misst. Das ist oft unzulässig, die Validität ist dann oft nur Schein. Beispiel: Ein Rechentest für Tischler, der sich von anderen Rechentests nur dadurch unterscheidet, dass mit Möbeln und Holz gerechnet wird statt mit Brötchen oder Hühnern.

Normen

Leistungen sind im Allgemeinen nicht absolut, sondern relativ, das heißt, wie bei den Schulzensuren beziehen sich Leistungsbewertungen auf Vergleiche: mit den Schülerinnen und Schülern einer Klasse, eines Jahrgangs, mit vorgegebenen Mindest-Kriterien. Wenn man zum Beispiel wissen möchte: „Wo steht die getestete Person im Vergleich zu ihrer gesamten deutschen Altersgruppe?“ muss das Testverfahren normiert sein. Das heißt: er ist an einer repräsentativen Stichprobe überprüft worden. Diese ist genau so zusammengesetzt, wie die Grundgesamtheit. Normierte Tests machen es möglich, die Zahl der richtigen Lösungen (Rohwert) in einen Standardwert zu übersetzen, der mir dann eine Information darüber gibt, wo die Testperson im Vergleich zu ihrer Bezugsgruppe leistungsmäßig steht. Standardwerte sind Werte der Normalverteilung. Der IQ ist zum Beispiel so ein Wert. Man kann die Leistung aber auch in Prozenträngen ausdrücken, wie viele Personen meiner Bezugsgruppe erzielen die gleiche oder eine schlechtere Leistung?

Das Gewinnen solcher Normwerte ist im allgemeinen teuer und aufwändig, vor allem bei Einzeltestverfahren. Es ist interessant, in den Manualen nachzulesen, wie groß denn die Strichprobe war und hinsichtlich welcher Merkmale sie denn repräsentativ ist. Da wird zum Beispiel gesagt, die Stichprobe bestand aus 320 Menschen, der tatsächliche Vergleich wird dann aber mit 12-jährigen Kindern getroffen, und da sehen wir dann 25 Personen. So ein Verfahren ist wohl kaum als normiert zu bezeichnen. So etwas findet man bei ausgesprochen teuren Testverfahren.

Gruppentests sind leichter zu normieren. Man kann sie ganzen Klassen vorlegen. Dabei ist allerdings zu bedenken, dass die Autoren die Tests oft durch Fremde durchführen und sich dann die Ergebnisse schicken lassen. So besteht keine Kontrolle, ob beim Testen alles mit rechten Dingen zugegangen ist.

Die Bezugsgruppe für die Normen kann auch falsch gewählt sein. Ein gutes Beispiel sind die internationalen Vergleichsuntersuchungen. Es macht keinen Sinn, unkorrigiert Bundesländer oder Staaten zu vergleichen, wenn die Zusammensetzung der Bevölkerung unterschiedlich ist. Da ist es manchmal besser, regionale Vergleichswerte zu verwenden und gar nicht erst den Anspruch auf Repräsentativität zu erheben.

Sind repräsentative Vergleichsnormen erforderlich?

Das Wichtige an einem Test sind die Aufgabenanalyse und die Überprüfung der Gütekriterien. Sie können sich für Ihre Schule selber Tests konstruieren und eine Aufgabenanalyse vornehmen. Sie können bei der Erstellung der Aufgaben über Ihre Konzepte diskutieren (messen die Aufgaben das, was ich den Schülerinnen und Schülern vermitteln will?). Aus den genannten Gründen ist ein solcher informeller, also nicht normierter Test einer am Schreibtisch erdachten schriftlichen Prüfung total überlegen.

Ob Sie Normen benötigen, hängt von Ihrer Fragestellung ab. Manchmal sind keine Normen besser als schlechte Normierungen. Manchmal benötigen Sie sie einfach nicht. Wenn Sie zum Beispiel 10 Plätze für eine Fördergruppe belegen müssen, brauchen Sie eine Leistungs-Rangreihe Ihrer Schülerinnen und Schüler, nicht ihren Leistungstand im Vergleich zu allen Schülern der Altersgruppe in Deutschland.

Vielleicht tun Sie sich mit für Ihren Test-Eigenbau mit einem Methodiker, zum Beispiel einer Schulpsychologin, einem Schulpsychologen zusammen.