Entspannung Entwicklung der Person Gesellschaft Gespräch Lernen Schulpsychologie Schulvermeidung Supervision Testen Unterhaltung

Tests und Testdiagnostik für die Schule

Uwe Wiest, WS 2007/2008 FB 12: Erziehungswissenschaft,

Übersicht (nicht identisch mit dem Stundenablauf)

Tests: ein diagnostisches Mittel unter verschiedenen anderen.
Einführung in die Testkonstruktion
(Aufgabenanalyse, Normierung, Normen, verbale Einschätzung, entscheidungstheoretische Überlegungen)
Aufgabentypen, mit Beispielen aus verschiedenen Tests
Fähigkeitsdiagnostik, Übersicht
Intelligenzdiagnostik: Intelligenzmodelle
Beispiele: Testverfahren kennen Lernen. Fallbeispiele aus der Schulpsychologie
Die Entwicklung von Fähigkeiten
Sprache: Lesen, Schreiben, Textverständnis
Lese-Rechtschreibschwäche und ihre Handhabung in der Schule
ICD 10, Entwicklungsstörungen schulischer Fertigkeiten. Richtlinien in Bremen, praktische Konsequenzen.
Sonderpädagogische Fragestellungen.
Hochbegabung
Persönlichkeitstests: standardisierte Fragebögen oder Interviews
Nicht-metrische Testverfahren, projektive Tests
Die Entwicklung eigener informeller Tests, für die Schule.

Literatur aus dem Internet (Stand: 26.01.10)

Stangl Testtheorien

Gütekriterien für Tests von Stangl

Likert-Skala – Wikipedia

Guttman Skala –

semantisches Differential

Literatur, grundlegende Werke

Hellmuth Benesch (1976 ): dtv Atlas Psychologie II. München, dtv. Das Kapitel über Psychodiagnostik. Reich bebildert.

Markus Bühner (2006) Einführung in die Test- und Fragebogenkonstruktion. Studium Psychologie. München, Pearson Studium. Mit konkreten Anweisungen zur Verrechnung.

Klaus D. Kubinger (Hrsg., 19892 ): Moderne Testtheorie. Weinheim/Basel, Beltz. Probabilistische Testtheorie.

Gustav A. Lienert, U. Raatz (1986 ): Testaufbau und Testanalyse. Weinheim, Beltz, PsychologieVerlagsUnion. Standardwerk.

Uwe Wiest (1978) Schulpsychologie. Stuttgart, urban-Kohlhammer Kapitel 2 bis 4. Vergriffen, nur noch antiquarisch.

Wikipedia: Diagnose

In der Pädagogik gewinnt Diagnostik zunehmend an Bedeutung.

Da grundsätzlich davon ausgegangen werden muss, dass Handeln bzw. Verhalten von Subjekten Ausdrucksform eines individuellen Bildungsprozesses ist,

ergibt sich die zwingende Notwendigkeit eben jenen Bildungsprozess in seiner Struktur zu erfassen,

um z.B. im Bereich der Jugendhilfe angemessene Interventionen entwickeln zu können.

Diagnostische Methoden:

Das Gespräch: Anamnese, Exploration.
standardisiertes Interview.
Fragebögen, informell, normiert.
Beobachtung, Beurteilung aufgrund von Beobachtungen -
oder Stereotypien, Beurteilungsfehlern.
Verhaltensbeobachtung, intuitiv-zufällig oder standardisiert.
Beurteilungsskalen, selbstgestrickt oder standardisiert.
Testverfahren, selbstgestrickt, informell, standardisiert.
Projektive Tests, projektive Verfahren

Ziele

Einschätzung von Testverfahren auf die Brauchbarkeit für die spezielle schulische Fragestellung.

schulische Fragestellungen:

Lese-Rechtschreibschwäche (LRS), Legasthenie
Hochbegabung
AD(H)S
Sonderpädagogischer Förderbedarf
Schullaufbahnberatung und -entscheidung
Unterrichtsdifferenzierung, Förderung

noch mehr Ziele

Verstehen von Gutachten zu psychologisch-pädagogischen Fragestellungen:

Lese-Rechtschreibschwäche (LRS), Legastehenie
Hochbegabung
Sonderpädagogischer Förderbedarf.

Beauftragung eines Beratungsdienstes mit einer ausgefeilten pädagogischen Fragestellung.

Verwenden von Tests in der Lerngruppe.

Entscheiden zwischen verschiedenen standardisierten Tests, informellen Tests, Fragebögen, Beobachtung, Gespräch, alltäglicher Klassenarbeit ...

Entwicklung und Verbesserung eigener Verfahren zur Leistungs-Überprüfung.

Was versteht man unter einem Test ?

Ein Verfahren zur Untersuchung eines Persönlichkeitsmerkmals,
Den Vorgang der Durchführung einer Untersuchung,
Die Gesamtheit der zur Durchführung notwendigen Requisiten,
Gewisse, mathematisch-statistische Prüfverfahren.

Markus Brückl

Wozu der ganze Umstand?

Sauber konstruierte und normierte Tests erlauben es,

über die Leistungsfähigkeit einer Person
in einem definierten Bereich
in sehr kurzer Zeit, zuverlässig und gültig

zu einer Aussage zu kommen.

Tests ...

sind wissenschaftliche Routineverfahren

zur Untersuchung eines oder mehrerer empirisch abgrenzbarer Persönlichkeitsmerkmale

mit dem Ziel einer möglichst

quantitativen Aussage
über den relativen Grad
der individuellen Merkmalsausprägung.

Intermezzo

Eignung für das Studium des Lehramtes?

Bei diesem Test geht es für die Teilnehmerinnen und Teilnehmern NICHT um die Frage ihrer Eignung.

Vielmehr wollen wir den Test testen:

Was hat sich der Testautor dabei gedacht?

Woher bezieht er seine Interpretation?

Lienert, nach Warren

Testkonstruktion: Übersicht 1

Ökonomie.

Objektivität: Durchführung, Auswertung.

Aufgabentypen.

Aufgabenanalyse: Schwierigkeit, Trennschärfe.

Literatur: Lienert/Raatz (19986): Testaufbau und Testanalyse, Beltz, Weinheim

Testkonstruktion: Übersicht 2

Zuverlässigkeit (Reliabilität). Standardmessfehler.

Gültigkeit (Validität). Standardschätzfehler.

Normierung. Normwerte.

Profile und Differenzen.

Klassifikation und Auslese.

Folien 2

Markus Bühner: Einführung in die Test- und Fragebogenkonstruktion, Kap. 3.2

Hellmuth Benesch: dtv-Atlas zur Psychologie II, Kap. XIX, 3. - 10. S. 356 – 68

Lienert-Raatz: Testaufbau – Testanalyse: S. 18 f.

nach Lienert-Raatz:

Gebundene Aufgaben-Beantwortung:

Richtig-Falsch: RF-Aufgabe. JA NEIN, Stimmt stimmt nicht, R F

Zweifach-Wahl-Aufgabe:

der Pottwahl ist

1. ein Säugetier, 2. ein Raubfisch. Bitte ankreuzen: 1 2

Mehrfach-Wahl: MW-Aufgabe

Eine Buchstabengruppe ist kein Wort. Streiche sie durch.

HAUS GRAS SDJK KIND

Ein Kommentar ist ein(e)

a Gerichtsurteil b Verordnung c Erläuterung d Feststellung e Beschluss

Mehrfach-Wahl: MW-Aufgabe (Fortsetzung):

Die einzig richtige Antwort heißt in Leistungstest „Best-Antwort“, in Fragebögen „Schlüssel-Antwort“.

Best-Antworten nennt man auch „Attraktoren“, die Alternativen „Distraktoren“.

Mehrfach-Antwort (MA-Aufgaben): Mehr als eine richtige Lösung.

Stufen-Antwort (SA-Aufgaben) in Persönlichkeitsfragebögen, zur Kennzeichnung der Gradausprägung eines Merkmals.

Ich habe Angst vor Klassenarbeiten

nie (1) selten (2) manchmal (3) häufig (4) immer (5)

Zuordnung (ZO-Aufgabe).

Umordnung (UO-Aufgaben)

Bringe die Wörter folgenden Satzes in die richtige Reihenfolge:

es gestern heftig regnete morgen

( 4 ) ( 1 ) ( 5 ) ( 3 ) ( 2 )

Check-List (CL-Aufgaben): Adjektivlisten: die Probandin/der Proband streichen die Eigenschaften an, die auf sie/ihn zutreffen.

+ Gebundene Aufgabenformen lassen sich objektiv auswerten.

- Komplexe und ungewöhnliche Antworten sind kaum möglich.

Freie Aufgaben-Beantwortung

Ergänzung (EG-Aufgabe)

Die Aufgabe soll durch ein Schlüsselwort oder eine kurze Darstellung vollendet werden.

Moskau ist die Hauptstadt von Russland

Schnee ist weiß und Gras ist grün

Ein Rechtschreib-Lückendiktat ist eine EG-Aufgabe.

Kurzaufsatz (KA- oder Essay-Aufgabe)

Wie kommen Sommer und Winter zustande? (Max. 150 Wörter).

+ Komplexere und originelle Antworten sind möglich.

- Die Objektivität ist schwerer zu erreichen. Hilfsmittel sind Vergleichslisten oder Beschreibungen von gültigen Lösungen.

Kombinationen von freier und gebundener Aufgaben-Beantwortung:

Die Testperson erhält die Möglichkeit, zusätzlich zur gebundenen Aufgabe eine eigene Antwort zu schreiben.

Zum Beispiel: hinter der Ergebnisauswahl befindet sich eine Linie, so dass man etwas schriftlich ergänzen kann.

Eine Hypothek ist

( a ) ein Arzneimittelhaus

( b ) die lange Seite eines rechtwinkligen Dreiecks

( c ) ein kleiner Bar-Tresen

( d ) eine eingebildete Kranke

( e ) eine Grundschuld

( f ) ________________________________

Im folgenden: einige Testbeispiele

Sprachstandsüberprüfung und Förderdiagnostik für Ausländer- und Aussiedlerkinder SFD 1

Ist das Ergebnis größer als das der Aufgabe davor? Dann setze dahinter ein Kreuz.

Ist es gleich groß oder kleiner: KEIN Kreuz.

Am besten gehst du so vor:

1. Du rechnest die Aufgabe aus und schreibst das Ergebnis daneben.

2. Du setzt ein Kreuz hinter die Aufgabe, wenn das Ergebnis größer ist als das der Aufgabe davor.

Wenn du schon ohne Rechnen siehst, ob das Ergebnis größer ist oder nicht, oder wenn du dir die Ergebnisse auch so gut merken kannst, brauchst du das Ergebnis nicht aufzuschreiben. Wichtig ist nur: Kreuz oder Nicht-Kreuz?

Weitere Aufgabenbeschreibungen:

wdr-Fernsehen: Quarks. Zum Ausprobieren.

Folien 3

Klassische Testtheorie nach Stangl:

Nach Amelang & Zielinski (1997, 34) war der Ausgangspunkt für die Entwicklung einer Testtheorie die Feststellung von Spearman (1910), dass messfehlerbehaftete Variablen miteinander niedriger korrelieren, als sie es ohne Fehlerbehaftetheit tun würden. Die Testtheorie versucht also, aufgrund von Testergebnissen wahre Ausprägungen von menschlichen Merkmalen festzustellen. Sie geht davon aus, dass das Ergebnis eines Tests mit dem wirklichen Merkmal übereinstimmt, dass es aber dabei zu Messfehlern kommen kann. Diese Messfehler sind in dieser Vorstellung einzige Fehlerquelle. Also müssen bloß diese bestimmt werden, damit wahre Aussagen über Merkmale getroffen werden können.

Die Klassische Testheorie, auch "True Score Test Theory", basiert auf dem "True Score Model" mit folgenden Annahmen:

Das erzielte Testresultat besteht aus dem "wahren Anteil" ("true score") und einem "Fehler", der zufällig ist und negativ oder positiv sein kann.
Führt man den gleichen Test unendliche Male durch und ist jeder Test unabhängig von den anderen, so nähert sich der Fehler Null an.
Der wahre Anteil und der Fehler sind nicht voneinander abhängig. Personen mit besseren Ergebnissen haben weder mehr noch weniger Fehler als die mit schlechteren.

Das "True Score Model" ist eines der verbreitetsten, da es einfach erlaubt, Testresultate zu berechnen und Frageschwierigkeiten zu bestimmen, es also etwa im Rahmen der Persönlichkeitsmessung versucht, aufgrund von Testergebnissen wahre Ausprägungen von Persönlichkeitsmerkmalen festzustellen. Sie geht davon aus, dass das Ergebnis eines Tests mit dem reellen Merkmal übereinstimmt, dass es aber zu Messfehlern kommen kann. Diese Messfehler sind in dieser Vorstellung die einzige Fehlerquelle. Also müssen diese bestimmt werden, damit die wahren Ausprägungen von Persönlichkeitsmerkmalen erfasst werden.

Gütekriterien nach Stangl:

Objektivität
ist das Ausmaß, in dem ein Testergebnis in Durchführung, Auswertung und Interpretation vom Testleiter nicht beeinflusst werden kann, bzw. wenn mehrere Testauswerter zu übereinstimmenden Ergebnissen kommen.

Durchführungs-, Interpretations-, Auswertungsobjektivität

Reliabilität (Zuverlässigkeit) „Wenn man mit einer Kanone ein Ziel anvisiert und die Kanonenkugeln zwar nicht das Ziel treffen, aber immer an der gleichen Stelle einschlagen, dann besitzt das Instrumentarium eine hohe Reliabilität.“

Ausflug in die Statistik

Reliabilität wird als Korrrelationskoeffizient ausgedrückt. Eine Korrelation ist ein Ähnlichkeitsmaß. Es berücksichtigt die Streuungen (s) bzw. die Varianzen (s2) von zwei Merkmalen und die Kovarianz beider Merkmale miteinander. Ist die Ähnlichkeit identisch, ist die Korrelation 1. Haben beide Merkmale nichts miteinander zu tun, ist sie 0. Sie ist -1, wenn die Merkmale sehr ähnlich sind, aber umgekehrt gezählt werden.

Für die Berechnung der Reliabilität gibt es spezielle Formeln, die aufgrund der Korrelation der Testteile eine Schätzung für einen ganzen Test zulassen. Eine der gebräuchlichsten ist Cronbachs α (Lienert u.a. Seite 192).

Validität (Gültigkeit)

Konstruktvalidität:

Korrelationen (gemeinsame Varianz), Hypothesen-Bestätigung, zum Beispiel im Sinne einer Vorhersage-Validität.

Ausflug in die Statistik

Ein gängiges Verfahren ist die Faktorenanalyse. Eine Gruppe von Menschen wird mit verschiedenen Verfahren getestet oder auch eingeschätzt (Beobachtung, Fragebogen). Die Testergebnisse werden in einer Korrelationsmatrix zusammengetragen, aus den Ergebnissen werden Faktoren extrahiert (wie Sirup aus Saft). Bei den gebräuchlichen Verfahren sind die Faktoren unabhängig voneinander. Sie werden nach den Einzeltests benannt, die hoch auf den Faktoren laden. Eine Ladung entspricht der Korrelation eines Tests mit dem Faktor.

Beispiel: ein neuer Wortschatztest sollte auf einem Sprachfaktor laden und möglichst nicht auf einem anderen.

Validität (Gültigkeit) Fortsetzung:

Das Quadrat der Korrelation zweier Merkmale gibt die gemeinsame Varianz an. Ist die Korrelation eines Intelligenztests und des Mittelwerts der Schulnoten r = 0,6, haben beide Merkmale eine gemeinsame Varianz von 0,36.

Stangl: Konvergente Validität meint, dass bei mehreren alternativen Kriterien, von denen aber nur einige eine hohe Konstruktvalidität haben, die Messung hoch mit den Kriterien hoher Validität korreliert.

Diskriminante Validität meint, daß bei mehreren alternativen Kriterien, von denen nur bestimmte eine hohe Konstruktvalidität haben, die Messung niedrig mit den Kriterien niedriger Validität korreliert und hoch mit denen hoher Validität.
Konkurrente Validität meint, daß Messung und Kriterium gleichzeitig erhoben werden.
Vorhersage-, prognostische, prädiktive Validität meint, daß das Kriterium nach der Messung erhoben wird, d.h. die Messung soll das Kriterium vorhersagen. Wenn ein Flugschüler im Flugsimulator sicher ein Flugzeug beherrscht, wird er dies in vielen Fällen dann auch in der Realität können.

Inhaltsvalidität: es ist offensichtlich, was der Test misst. Pseudo-Validiät: der Test sieht so aus, als würde er das Gewünschte messen.

Intelligenz (Nettelnstroth)

Der Abweichungs-IQ stellt sich wie folgt dar (Amelang & Bartussek,

1990, S. 181):

IQ = 100 + 15 *(X – M/sx)

Definitionen:

Wechsler (1964) „zusammengesetzte oder globale Fähigkeit des Individuums, zweckvoll zu handeln, vernünftig zu denken und sich mit seiner Umgebung wirkungsvoll auseinanderzusetzen“

1) Binet & Simon, 1905: Intelligenz ist ... ... die Art der Bewältigung einer aktuellen Situation, genauer: gut urteilen, gut verstehen und gut denken.

2) Stern, 1911: Intelligenz ist ... ... ist eine durchaus formale Eigenschaft: sie bezieht sich auf eine Fähigkeit, die Geistesbewegung jeweiligen neuen Aufgaben anpassen zu können.

3) Hofstätter, 1957: Intelligenz ist ... ... das Ensemble von Fähigkeiten, das den innerhalb einer bestimmten Kultur Erfolgreichen gemeinsam ist.

4) Rohracher, 1965:Intelligenz ist ... ... der Leistungsgrad der psychischen Funktionen bei ihrem Zusammenwirken in der Bewältigung neuer Situationen.

5) Stern, 2001: Intelligenz ... ... kann als das Potenzial eines Menschen verstanden werden, Lern- und Bildungsangebote zur Aneignung von Wissen zu nutzen.

T	20	30	40	50	60	70	80
C	-1	1	3	5	7	9	11
IQ	55	70	85	100	115	130	145
PR	0	2	16	50	84	98	100

Normalverteilung: Standardwerte (T, C, IQ) und Prozentränge (PR)

Tabelle A 3-6: Beschreibung der Fähigkeiten im BIS (Berliner Intelligenztest)

(Jäger, Süß & Beauducel, 1997)

Operative Fähigkeiten

K Verarbeitungskapazität

Verarbeitung komplexer Informationen bei Aufgaben, die nicht auf Anhieb zu lösen sind, sondern Heranziehen, vielfältiges Beziehungsstiften, formallogisch exaktes Denken und sachgerechtes Beurteilen von Informationen erfordern.

E Einfallsreichtum
Flexible Ideenproduktion, die Verfügbarkeit vielfältiger Informationen, Reichtum an Vorstellungen und das Sehen vieler verschiedener Seiten, Varianten, Gründe und Möglichkeiten von Gegenständen und Problemen voraussetzt, wobei es um problemorientierte Lösungen geht, nicht um ein ungesteuertes Luxurieren der Phantasie.

M Merkfähigkeit
Aktives Einprägen und kurzfristiges Wiedererkennen oder Reproduzieren von verschiedenartigem Material. Die frühere Bezeichnung Gedächtnis (G) wurde geändert, da im Verlauf der Modellentwicklung nur noch kurzfristige Behaltensleistungen einbezogen werden konnten.

B Bearbeitungsgeschwindigkeit

Arbeitstempo, Auffassungsleichtigkeit und Konzentrationskraft beim Lösen einfach strukturierter Aufgaben von geringem Schwierigkeitsniveau.

Inhaltsgebundene Fähigkeiten

V Sprachgebundenes Denken

Grad der Aneignung und der Verfügbarkeit des Beziehungssystems Sprache.

N Zahlengebundenes Denken

Grad der Aneignung und der Verfügbarkeit des Beziehungssystems Zahlen.

F Anschauungsgebundenes, figuralbildhaftes Denken

Einheitsstiftendes Merkmal scheint hier die Eigenart des Aufgabenmaterials zu sein, dessen Bearbeitung figural-bildhaftes und/oder räumliches Vorstellen erfordert.

Prüfsystem für Schul- und Bildungsberatung von Wolfgang Horn (1969)

Test 1+2: Allgemeinbildung, Rechtschreibung, Wortschatztest

Test 3 Schlussfolgerndes Denken figural

Test 4 Schlussfolgerndes Denken literal-numerisch

Test 5 Wortflüssigkeit

Test 6 Wortgestalt-Bildung

Test 7 Kombinationsfähigkeit (eher nicht räumliches Vorstellungsvermögen)

Test 8 Visuelle Orientierung

Test 9 Umgang mit Zahlen, Konzentration, Ausdauer

Test 10 Wahrnehmungsschnelligkeit beim Zahlenvergleich.

Der Test bildet die Thurstoneschen Faktoren nach, allerdings ließ sich diese Aufteilung nicht immer schlüssig verifizieren.

Tests 1+2, 5+6, 9+10 sind eher schulerfolgsabhängig (kristallisierte Intelligenz), 3+4, 7+8 eher kulturell unabhängig (flüssige Intelligenz).

Prüfsystem für Schul- und Bildungsberatung

Das PSB ist eine leicht verkürzte Fassung des Leistungsprüfsystem (LPS). Über das LPS gibt es eine umfangreiche Untersuchung von Tent (1969) an 925 Kindern, Kreis Biedenkopf Hessen,, 4. Schuljahr: Die Auslese von Schülern für weiterführende Schulen. Hogrefe, Görttingen. Horn selber hat sich nur sehr dürftig über die Gütekriterien seines Tests geäußert. Tent fand Halbierungskoeffizienten der zusammengefassten Skalen zwischen 0,90 und 0,99, insgesamt 0,99. Die Wiederholungs-Reliabilität nach 32 Monaten lag bei 0,78, minderungskorrigiert bei 0,94.

Tent interpretiert den Faktor der Tests 9 und 10 als „Leistungsmotiviertheit“.

Die Validität (Test-Schulnoten) liegt knapp unter 0,7.

Schichtspezifisch definierter Schulerfolg:

Nutzungs-Index: Geeignete einer sozialen Schicht auf weiterführenden Schulen/Alle Geigneten dieser Schicht. (die Geeigneten wurden durch den Test ermittelt).

Repräsentations-Index: Alle Kinder eine sozialen Schicht auf weiterführenden Schulen/ Geeignete dieser Schicht.

Die soziale Herkunft korreliert mit dem Schulbesuch höher als die Eignung (0,5 – 0,3).

„Unsere Schulen sind de facto nach wie vor Standesschulen“ (1969)

Prüfsystem für Schul- und Bildungsberatung

Entwicklung: (Quelle: Manual)

Baden-Württemberg, Eichstichprobe 10000 Schülerinnen und Schüler. Teilstichproben 200 pro Alterstabelle, repräsentativ zusammengestellt: Berufsgruppen (Väter), Einwohnerzahlen der Städte und Gemeinden, Schularten.

Gegenüber dem Leistungsprüfsystem wurde eine erneute Aufgabenanalyse vorgenommen (400 Schülerinnen und Schüler pro Testform).

PSB-Normen für die Untertests

I-S-T 2000 D. Liepmann, A. Beauducel, B. Brocke und R. Amthauer 2001, 2007

3 Fähigkeitsbereiche (Grundmodul). Merkfähigkeit wird extra bewertet.

1 Erweiterungsmodul: Wissenstest. (kristallisierte Intelligenz, kulturabhängig).

Für das Erweiterungsmodul werden die Tests speziell gewichtet, um eine Auswertung nach

kristallisierter Intelligenz und
fluider Intelligenz (relativ kulturaunabhängig)

zu ermöglichen.

ZUVERLÄSSIGKEIT: (Quelle: Testzentrale)

Die Reliabilitätsschätzungen für die einzelnen Skalen liegen zwischen α = .87 und α = .97 (Cronbachs Alpha) bzw. r = .88 und r = .96 (Split-Half-Reliabilität).

GÜLTIGKEIT: Validitätsbelege ergeben sich aus der Überprüfung der Struktur des Instruments in multivariaten Analysen

NORMEN: Es liegen Standardwert-Normen für die Formen A, B und C auf der Basis von inzwischen mehr als 5.800 Personen im Alter zwischen 15 und 60 Jahren vor (Gymnasiasten, Nicht-Gymnasiasten). Für eine nach Schulbildung gewichtete Gesamtstichprobe wurde eine Zufallsauswahl von 2.020 Probanden vorgenommen.

In Abhängigkeit der verwendeten Module zwischen ca. 77 (Grundmodul) und 130 Minuten (einschließlich Wissenstest).

I-S-T 2000 (Quelle: Handbuch I-S-T 2000)

verbal

Satzergänzung (SE), Aufgaben 1-20

Jede Aufgabe besteht aus einem Satz, in dem ein Wort fehlt. Aus fünf vorgegebenen Wörtern soll jenes ausgewählt werden, das den Satz richtig vervollständigt.

Analogien (AN), Aufgaben 21-40

Es werden jeweils drei Begriffe vorgegeben. Zwischen den ersten beiden Begriffen besteht eine bestimmte Relation. Diese Beziehung muß erkannt werden. Aus fünf vorgegebenen Antwortmöglichkeiten soll diejenige ausgewählt werden, die zum dritten Begriff in einer ähnlichen Beziehung steht.

Gemeinsamkeiten (GE), Aufgaben 41-60

Aus einer Gruppe von sechs Wörtern müssen die beiden herausgefunden werden, für die es einen gemeinsamen Oberbegriff gibt.

I-S-T 2000

numerisch

Rechenaufgaben (RE), Aufgaben 61-80

Die Aufgaben verlangen Rechenoperationen im Bereich der reellen Zahlen. Sie werden nicht verbal präsentiert, um den sprachlichen Anteil bei diesen Anforderungen möglichst auszuschalten.

Zahlenreihen (ZR), Aufgaben 81-100

Es werden Zahlenreihen, die nach einer bestimmten Regel gebildet sind, vorgegeben. Bei jeder vorgegebenen Reihe soll die nächstfolgende Zahl gefunden werden.

Rechenzeichen (RZ), Aufgaben 101-120

Bei diesen Aufgaben sind Gleichungen im Bereich der rationalen Zahlen vorgegeben, bei denen die Verknüpfungen weggelassen sind. Die Aufgaben sind durch das Einsetzen von Rechenzeichen der vier Grundrechenarten zu lösen.

I-S-T 2000

figural

Figurenauswahl (FA), Aufgaben 121-140

Jede Aufgabe zeigt fünf in mehrere Stücke zerschnittene Figuren. Es soll herausgefunden werden, welche von zehn Auswahlfiguren durch Zusammensetzen der Stücke hergestellt werden kann.

Würfelaufgaben (WÜ), Aufgaben 141-160

In der Aufgabe werden Würfel vorgegeben, auf denen jeweils sechs verschiedene Muster abgebildet sind, drei davon sichtbar. Die auszuwählenden Würfel zeigen einen der vorgegebenen Würfel in veränderter Lage. Es soll herausgefunden werden, um welchen der vorgegebenen Würfel es sich jeweils handelt.

Matrizen (MA), Aufgaben 161-180

Es werden Anordnungen von Figuren vorgegeben, die nach einer bestimmten Regel aufgebaut sind. Aus vorgegebenen Auswahlfiguren soll jeweils die regelkonforme herausgefunden werden.

I-S-T 2000

Merkfähigkeit

(verbal), Aufgaben 181-190

Man muss sich vorgegebene Wörter und deren Zuordnung zu Oberbegriffen einprägen. Im Anschluß an die Einprägphase sollen aus vorgegebenen Oberbegriffen diejenigen ausgewählt werden, denen die eingeprägten Wörter zuzuordnen sind.

(figural), Aufgaben 191-203

Es werden Figurenpaare vorgegeben. Nach der Einprägphase wird jeweils ein Element der Paare vorgegeben. Die zweite, richtige Figur muß aus einer Gruppe von fünf Alternativen ergänzt werden.

Wissenstest, Aufgaben (Fragen) 204-276

Es werden Fragen zu verschiedenen Wissensgebieten gestellt. Die richtige Lösung ist aus einer Gruppe von fünf Alternativen auszuwählen.

I-S-T 2000

AUSWERTUNG

Grundmodul: Normen für die Einzeltest, für die drei Kategorien verbal, numerisch, figural, Gesamtwert.

Skalenwerte: Umwandlung von Rohwerten (richtigen Lösungen) in Prozentränge und Standardwerte.

Der Standardwert hat einen Mittelwert von 100 und eine Streuung von 10 (zum Vergleich: der IQ hat eine Streuung von 15. Um den Standardwert in einen IQ umzuwandeln, muss man rechnen: SW – 100, das Ergebnis teilen durch 2 und mit 3 malnehmen, 100 wieder hinzuzählen). Oder Tabelle A13.

15- 16 Jahre, 17 – 18 Jahre, 19 – 20, 21 – 25 Jahre, Gymnasiasten, Nicht- Gymnasiasten.

Gesamt, Gymnasiasten, Nicht-Gymnasiasten.

Merkfähigkeit, verbal-figural Gesamt ohne Altersnormen.

I-S-T 2000

AUSWERTUNG 2

Erweiterungsmodul: Kristallisierte und fluide Intelligenz.

Den Untertest-Rohwerten werden Faktorenwerte („Punktwerte“) zugewiesen und diese dann in Standardwerte für die beiden Intelligenzbereiche umgewandelt.

Tabelle B 2-2: Verteilung der Probanden auf Altersgruppen im I-S-T 2000 R

Altersgruppe__N__%

bis 16 Jahre 336 9,6

17 – 18 Jahre 393 11,3

19 – 20 Jahre 461 13,2

21 – 25 Jahre 671 19,3

26 – 30 Jahre 415 11,9

31 – 40 Jahre 750 21,5

41 – 50 Jahre 303 8,7

ab 51 Jahre 155 4,5

Gesamt 3484 100,00

Folien 4

Wir entwickeln Testaufgaben.

Hilfestellung: die Schritte der Mehrschritt-Lesemethode.

Und natürlich die Test- und Aufgabenmodelle, die wir bereits kennen gelernt haben.

Dazu bringe ich zwei Texte aus DIE ZEIT online mit.

Folien 5

Die Entwicklung von Aufgaben

Material: ein Zeit-online-Artikel über das Impfen.

Wie kann man einen solchen Text abprüfen?

Soll der informelle Test eine Lernstandsüberprüfung sein – oder wird der Text den Schülerinnen und Schülern vorgelegt, sie lesen ihn das erste Mal und sollen dann Fragen beantworten. Und den Text dabei zur Verfügung haben?

Was kann man überprüfen?

Textverständnis

Rechtschreibung: Lückentext, falsch geschriebene Wörter heraussuchen.

Grammatik.

Konzentration (Finden gleicher Satzteile oder Sätze)

Ist der Text überhaupt gelesen worden?

Wortschatz, Kenntnis der Begriffe, die im Text vorkommen.

Also: Festgelegt werden muss: wie alt sollen die Schüler sein, denen der Test vorgelegt wird?

Welche Schulart sollen sie besuchen? Sekundarschule, Gymnasium, Förderzentrum?

Man kann reine inhaltliche Wiederholungen des Textes abfragen. Oder aber erwarten, dass die Schülerinnen und Schüler inhaltlich richtige, aber anders formulierte Aussagen wieder erkennen. Oder sogar eigene richtige Schlussfolgerungen ziehen oder Meinungen äußern, die Aussagen des Textes zur Grundlage haben.

Mehrfachwahlaufgaben:

Bei sehr simplen Distraktoren (falschen Alternativen) ist es relativ leicht, die richtige Lösung zu finden. Günstig ist, eine sehr simple Antwort dabei zu haben und ansonsten plausible Distraktoren, die für richtig gehalten werden können, wenn man sich mit dem Text nicht richtig auseinander gesetzt hat.

Der Kurs fand folgende Mehrfachwahl-Aufgaben:

Jede Aufgabe hat eine richtige Lösung.

Was verunsichert Patienten und Eltern?
1. Neue Meldungen über unwirksame und gefährliche Impfungen.
2. Neue Meldungen über Viren, die im Kindergarten übertragen werden.
3. Neue Meldungen über Umweltkatastrophen.
4. Neue Meldungen über falsche Beipackzettel.
Was wird auf der Seite impfkritik.de dringend empfohlen?
1. Beim Robert-Koch-Institut um Rat zu fragen.
2. Die Packungsbeilage nach möglichen Nebenwirkungen untersuchen.
3. An der Gruppenschutzimpfung teilzunehmen.
4. Sich nicht auf den Beipackzettel zu verlassen.

Welche Aufgabe hat die STIKO?
1. Die Zahl der Impfgegner zu vermindern.
2. Sie ordnet Jahr für Jahr Impfungen an.
3. Sie empfiehlt sinnvolle Impfungen.
4. Sie stellt Impfstoffe her.

Woher stammt der Erreger, der dutzende Menschen in Nigeria angesteckt hat?
1. Aus einem Sumpfgebiet bei Kairo.
2. Von Urlaubern in Nigeria.
3. Aus einem Versuchslabor in Nigeria.
4. Aus der Schluckimpfung eines weltweiten Impfprogramms.
Welches sind die Vorbehalte von Impfgegnern?
1. Impfen ist für viele unerschwinglich.
2. Impfen verursacht Allergien und vielleicht sogar Krebs.
3. Impfen verursacht Müdigkeit und Appetitlosigkeit.
4. Impfen löst oft Fieber aus.

Folien 6

IST 2000: Merkfähigkeits-Tests, Wissenstest. Auswertung: Gewinnung von Rohwerten, Standardwerten für die einzelnen Testskalen, die Aufgabenbereiche, die Ermittlung von Punktwerten für die fluide und kristallisierte Intelligenz.

Qualitätsstandards für die Anwendung von Testverfahren. Die Testautoren warnen insbesondere vor der Anwendung von Einzeltests, der isolierten Anwendung der Merkaufgaben und des Wissenstests.

Wenn Lehrkräfte mit psychologischen Gutachten konfrontiert werden, sollten sie darauf achten, ob anweisungswidrig Einzelskalen aus Intelligenztests benutzt werden.

Warum diese Strenge?

Die Bezeichnung von Tests entspricht nicht unbedingt ihrer faktoriellen Validität.

Das Testverfahren ist als Ganzes konstruiert und geeicht worden. Nimmt man Einzeltests heraus, stimmen die Bedingungen der Testgabe nicht mit denen in der Eichung überein.

Folien 7

HAWIK III von Wechsler, deutsche Standardisierung von Tewes und anderen 1999

Der HAWIK ist ein Individualtest für 6 bis 16-jährige Schülerinnen und Schüler. Ungeachtet neuerer Faktorenanalysen hält der HAWIK bzw. die amerikanische Version WISC an der Aufteilung von Verbal- und Handlungstests fest. Die Normierung erfolgte auf der Grundlage der Regeln der klassischen Testtheorie (im Gegensatz zum AID von Kubinger und Wurst).

Da es sich um einen Individualtest mit einem engen Wechselspiel zwischen Testleiterin und Probandin beiderlei Geschlechts handelt, werden ausdauerschwache Kinder eher begünstigt, im Vergleich zum Papier-Bleistift-Tests mit größerer Zeitbegrenzung. Verbal- und Handlungstests lösen sich ab, so dass auch von da her die Motivation lange erhalten bleibt.

Bei den Verbal-Skalen gibt es keine Auswahl-Antworten, sondern Ergänzungs-Aufgaben. Das Kind formuliert, die Testleiterin vergleicht mit den vorgegebenen Antworten im Handbuch.

Insgesamt ist die Test gebende Person wesentlich stärker involviert als bei Papier-Bleistift-Tests.

Es gibt unterschiedliche Start-Aufgaben für verschiedene Altersstufen. Ältere Kinder und Jugendliche fangen mit höheren Aufgaben an und bekommen die Punkte der einfachen Aufgaben zugerechnet.

Inzwischen gibt es die Neustandardisierung und Weiterentwicklung HAWIK IV von Petermann & Petermann. Man sollte stets die neueste Version benutzen. Erfahrungsgemäß werden ältere Tests im Laufe der Zeit leichter.

Folien 8

Lese-Rechtschreibschwäche, Schuldiagnostik und pädagogische Beurteilungspraxis.

LRS wird im ICD 10 als Leseschwäche definiert, wobei auch die Rechtschreibung betroffen ist. Dann gibt es die isolierte Rechtschreibschwäche ohne Leseschwierigkeiten. In den Definitionen sind relativ vage Ausschlusskriterien enthalten, die zum Teil nur anamnestisch zu erheben sind, zum Beispiel schlechter Unterricht.

Die Lese-Rechtschreibschwäche oder die reine Rechtschreibschwäche wird aus folgenden Gründen diagnostiziert:

Zur Feststellung des Förderbedarfs,
zur Finanzierung außerschulischer Fördermaßenahmen,
zur Schonung der Betroffenen bei der Notengebung und der Verleihung von Schulabschlüssen. Hierzu gibt es Richtlinien der Kultusministerien.

In der Diagnose benutzt man zwei Diskrepanzmaße:

Die Lese- und/oder die Rechtschreibleistung soll sich von anderen Schulleistungen unterscheiden.
Die Lese- und/oder Rechtschreibleistung, gemessen mit standardisierten Verfahren, soll sich von der Intelligenz deutlich unterscheiden, ebenfalls gemessen mit einem Standardverfahren.

Ein sinnvolleres statistisches Maß ist der Regressionsansatz (Kinder- und Jugendpsychiatrie der Uni München).

Die gängigen Rechtschreibtests arbeiten mit einer Anzahl kritischer Wörter. Besonders in höheren Klassen, ab Klasse 6, sind sie nicht mehr so recht vergleichbar mit schulischen Diktatsituationen, sie sind viel zu kurz, und erst recht nicht mit anderen Schreibsituationen wie Aufsätzen vergleichbar. So kann es sein, dass ein schreibschwacher Schüler zwar gelernt hat, mit Überlegung besser zu schreiben, aber eben nicht genügend automatisiert, so dass bei umfangreicheren Schreibleistungen doch wieder viele Fehler vorkommen.

Diagnostiker verwenden zur Diskrepanzdiagnose mit der Intelligenz oft sogenannte sprachfreie Verfahren, also figurale oder numerische Verfahren. Das ist aber unzulässig, denn es geht darum, nachzuweisen, dass es sich bei der Schwäche nicht um Mängel in der sprachlichen Begabung handelt. Das heißt, es müssen mündliche Sprachtests benutzt werden, die also kein Lesen oder Schreiben erfordern. Der sprachliche Faktor darf keineswegs ausgeklammert werden.

Das dürfte aber die Zahl der positiven Diagnosen erheblich einschränken. Die Rechtschreib- und die Leseleistung ist nämlich keineswegs unabhängig von den Schulleistungen, im Gegenteil, die Rechtschreibleistung ist ein guter Prädiktor des Schulerfolgs. Das starke Gewicht der Leseleistung für die Schulleistung wird deutlich, wenn man sich überlegt, welches Gewicht der Leseleistung in den PISA-Untersuchungen eingeräumt wird. Je höher die Lesekompetenz-Stufe, desto stärker der Zusammenhang mit sprachlicher Intelligenz!

Wegen der hohen Korrelation der Schreib- und Leseleistung mit der Schulleistung insgesamt ist es schwer erreichbar, eine statistisch gesicherte Differenz nachzuweisen.

Ist aber schließlich eine Lese- oder Schreibschwäche festgestellt, stellt sich die Frage nach den pädagogischen und schulrechtlichen Konsequenzen. Wenn es sich ausschließlich um eine Rechtschreibschwäche im Sinne einer erhöhten Fehleranzahl bei erhaltener Verständlichkeit des Geschriebenen handelt, ist die Lage noch am einfachsten: die Lehrkräfte bewerten die Schreibleistung eingeschränkt und vermerken dies im Test und im Zeugnis.

Wenn die Rechtschreibschwäche allerdings den sprachlichen Ausdruck einschränkt, also zum Beispiel zu dürftigeren Aufsätzen und anderen selbst verfassten Texten führt, wäre dies nicht kompensierbar, es sei denn man macht den Versuch, Schüler ihre Arbeiten auf Tonträger sprechen zu lassen. Ob das für den Schüler zum Vorteil gereicht, kann man nur im Einzelfall feststellen. Einen Text zu diktieren kann schwerer sein als einen zu schreiben.

Wenn die Leseschwäche gleichbedeutend mit einer starken Verlangsamung der Lesegeschwindigkeit und einer Behinderung bei der Sinnentnahme ist, bedeutet dies, dass man solchen Schülern nicht im gleichen Maße zumuten kann, Bücher zu lesen. Zumindest im Gymnasium ist das eine entscheidende Einschränkung beim Erreichen von Lernzielen und der Mitarbeit im Unterricht. Es sei denn, man senkt für diese Schüler dann auch die inhaltlichen Anforderungen. Manches ist vielleicht über Hörbücher und visuelle Informationsquellen auszugleichen. Inwieweit Lehrkräfte dafür zu sorgen haben oder hier eine Bringeschuld der Schüler besteht, wäre in Einzelnen zu klären.

Psychologische oder jugendpsychiatrische Gutachten sind für die pädagogische Praxis erst einmal wenig hilfreich. Die Lehrkraft muss im Einzelfall eigene Erkenntnisse gewinnen, was die Berücksichtigung im Unterricht, in der Bewertung, bei der Versetzung und bei den Abschlüssen angeht .

Ein nicht unerhebliches Problem für die pädagogische Praxis ist der Gesichtspunkt der Chancengleichheit und Gerechtigkeit. Soll ein offensichtlich fehlplatziertes Kind, das um das „Überleben“ in einer Schulform kämpft, eine normale Bewertung erfahren, ein anerkannter lese-schreib-schwacher Schüler aber eine Schonung, weil dieser eine begutachtete hohe Intelligenz aufweist? Wie verfahre ich mit Schülern, die eine einseitige figural-numerische Begabung haben? Bewerte ich diese anders als Kinder mit Lese- und Schreibschwäche bei angemessener mündlich erfasster sprachlicher Begabung?

Der Königsweg liegt in einer allgemein zurückhaltenden Bewertung der Rechtschreibleistung ab einer bestimmten Klassenstufe: etwa Klasse 8. Rechtschreibfehler werden angestrichen, Rechtschreibung kann auch geübt und gefördert werden, aber es erfolgt ein sehr mildes Einbeziehen in die Note.

Soll ein Kind, dessen Eltern die Möglichkeit haben, an ein psychologisches Gutachten zu kommen, günstiger beurteilt werden als potentielle Lese-Rechtschreibschwache, die keine solche professionelle Diagnose vorlegen können? Der Ausweg liegt in Klassentests, damit alle Kinder die gleiche diagnostische Chance bekommen und zwar nach den gleichen Maßstäben.

Genau: wegen der gleichen Maßstäbe ist es unter Umständen besser, „handgestrickte“ Tests zu benutzen als normierte Tests, die den inhaltlichen Ansprüchen nicht genügen oder veraltete Normen aufweisen. Hier sollten die Lehrkräfte einfach Mut haben und sich bei der Erstellung solcher informeller Tests von dafür qualifizierten Schulpsychologen beraten lassen.

Wenn man manche Darstellungen der entsprechenden Interessenverbände liest kommt man zu dem Eindruck, dass andere Lernprobleme gern als Folge einer „Legasthenie“ beschrieben werden. Zum Beispiel: schlechte Konzentrationsfähigkeit, schlechte Mathematikleistungen (wegen sprachlicher Vermittlung und der Textaufgaben), geringe Lernmotivation, Angst und andere emotionale Störungen, Verhaltensprobleme. Auch aus diesem Grund: Vorsicht bei schulexternen Begutachtungen! Wenn es wirklich so ist, dass ausgehend von einer spezifischen Störung die gesamte Schulleistung und -motivation beeinträchtigt ist, dann sind eben bestimmte schulische Qualifikationen nicht erreichbar.

Es gibt zwei Pole, die beide keine Berechtigung haben:

Die Pädagogen, die es grundsätzlich ablehnen, sich mit besondere Lese- und Rechtschreibschwierigkeiten zu befassen und alle „über einen Kamm scheren“.

Die Lehrkräfte, die test- und psychologengläubig Gutachten respektieren ohne eigenständige Überlegungen für ihre pädagogische Praxis anzustellen und damit möglicher Weise in ihren Klassen eine Chancenungleichheit herstellen.

Seien Sie kompetente und selbstbewusste Fach-Partner der Psychologen und Jugendpsychiater. Sie kommen so oder so nicht um individuelle Analysen und Entscheidungen herum.

Nach oben

Tests und Testdiagnostik für die Schule

Uwe Wiest, WS 2007/2008 FB 12: Erziehungswissenschaft,

Übersicht

L iteratur

Folien 1

Folien 2

Folien 3

Folien 4

Folien 5

Folien 6

Folien 7

Folien 8

Übersicht (nicht identisch mit dem Stundenablauf)

Literatur aus dem Internet (Stand: 26.01.10)

Literatur, grundlegende Werke

Folien 1

Wikipedia: Diagnose

Diagnostische Methoden:

Ziele

noch mehr Ziele

Was versteht man unter einem Test ?

Wozu der ganze Umstand?

Tests ...

Lienert, nach Warren

Testkonstruktion: Übersicht 1

Testkonstruktion: Übersicht 2

Folien 2

Folien 3

Folien 4

Folien 5

Folien 6

Folien 7

Folien 8