Evaluationen in der Wissenschaft

11.01.2013: Zu viel, zu oft und wie weiter?


	Forum Wissenschaft 4/2012; Foto: Fotolia.com – alphaspirit

Steuerung und Koordination in Wissenschaftssystemen sind in Fluss geraten. Doch es sind verschiedene, auch gegenläufige, Formate und Entwicklungen zu beobachten. Niedergeschlagen hat sich das auch in der Evaluation, wo Produkt- und Prozessorientierung in Widerspruch zueinander geraten können, wie Dagmar Simon in ihrem Beitrag ausführt.¹

Evaluationen sind ins Gerede geraten. Fand die flächendeckende Einführung im deutschen Wissenschaftssystem im Verhältnis zu anderen europäischen Staaten erst relativ spät statt, so ist mittlerweile die Kritik besonders heftig. Nun verändert sich die Wissenschaftslandschaft nicht nur durch Evaluationen aller Art, sondern man kann seit mehr als einer Dekade von einem umfassenden Transformationsprozess sprechen, der zentrale Instrumente der wissenschaftspolitischen Steuerung und Koordination und des institutionellen Settings der wissenschaftlichen Einrichtungen - Hochschulen und außeruniversitäre Forschungseinrichtungen - betrifft. Es werden gegenwärtig fast alle Steuerungs- und Koordinationsparameter oftmals nach dem Ansatz des New Public Management verändert. Wettbewerb, Legitimation, Rechenschaftspflicht, Ausdifferenzierung, Profilierung, Output-Orientierung sind hierfür einige der entscheidenden Stichworte. Überlagert wird diese Entwicklung durch einen Internationalisierungs- und Europäisierungsprozess - Bologna und die damit verbundenen Veränderungen. Hochschulen und Forschungseinrichtungen sehen sich in der Folge mit einer Vielzahl von neuen und weiterhin bestehenden alten Steuerungsphilosophien konfrontiert. Insofern ist diese Transformationsphase auch nicht als eine lineare zu verstehen, in der das alte System durch ein neues abgelöst wird. Kameralistische Elemente bestehen weiterhin neben New Public Management: also eine Entwicklung, die vielfältige Irritationen hervorruft und zu unterschiedlichen, in sich widersprüchlichen, Handlungsorientierungen führen kann. Dabei sollte bedacht werden, dass Hochschulen und Forschungseinrichtungen in ihren Handlungslogiken schon immer mit einer Vielzahl unterschiedlicher interner und externer Orientierungen und Referenzsystemen und den jeweiligen Output-Erwartungen konfrontiert wurden, die von der jeweiligen Organisation selektiert und integriert werden müssen. Ansprüche und Einflüsse kommen von den scientific communities, der staatlichen Politik, der allgemeinen Öffentlichkeit, den Medien und auch der Wirtschaft. Die zunehmende institutionelle Komplexität der Steuerung und Koordination im Wissenschaftssystem hat somit oftmals ein Governance-Mix mit zum Teil paradoxen Wirkungen² zur Folge.

Evaluationen und ihr Umfeld

In dieser Gemengelage nehmen Evaluationen in der Wissenschaft einen besonders prominenten Raum ein.³ Sie sind ein wichtiges Element mit orientierender Wirkung in einem komplexen Governance-Arrangement, in das viele weitere steuernde und orientierende Größen eingehen. Sie durchdringen mittlerweile nahezu jedes Segment des Wissenschaftssystems: seien es nun Programmevaluationen von Ministerien und Stiftungen oder Evaluationen von Forschung und Lehre, also von Fakultäten und Forschungseinrichtungen. Sie sind in ihren Zielen des Öfteren keineswegs eindeutig: als Legitimationsinstrumente für staatlich geförderte Institute, als Bewertungsgrundlage für die Ressourcenallokation, als Instrument, um wissenschaftliche Leistungen zu beurteilen, Leistungsvergleiche zwischen Einrichtungen herzustellen oder um Organisationsentwicklungsprozesse zu unterstützen. Evaluationen werden nicht selten als ›Multifunktionswaffe‹ eingesetzt, die zusätzliche Irritationen in den wissenschaftlichen Einrichtungen hervorrufen. Ebenso unterschiedlich sind die Methoden des Bewertens - seien es die in den letzten Jahren an Bedeutung gewinnenden quantitativen Verfahren in Rankings und Ratings⁴ oder die im Kern auf dem Peer Review, also qualitativer Beurteilung durch andere WissenschaftlerInnen, basierenden Bewertungen.

Zwei entgegen gesetzte Entwicklungen?

Betrachter des Evaluationsmarktes im Wissenschaftssystem akzentuieren unterschiedliche Entwicklungen: Zum einen nimmt das "Governing by Numbers⁵" insbesondere in den Rankings und Ratings von Hochschulen, Fakultäten und auch wissenschaftlichen Disziplinen zu. Wichtig wird es aber auch bei Peer Review-basierten Verfahren, bei denen als zusätzliche Informationsquelle für die Bewertung wissenschaftlicher Leistungen auch Publikationen und Drittmitteleinwerbungen gezählt werden. Als eine hierzu zunächst konträr verlaufende Tendenz konstatieren AutorInnen der Copenhagen Business School, dass in der akademischen Qualitätssicherung - nach Merton eine der zentralen wissenschaftlichen Institutionen - der nationalen Wissenschafts- und Innovationssysteme ein Veränderungsprozess dahingehend zu beobachten ist: "[...] there are clear indications in the literature that much, but not all, of today's qualitive control is transforming into a monitoring system that has a process rather than product orientation, uses new criteria, has other foci and goals, uses different peers und different evaluation times, and brings new perspectives to science studies"⁶. Grundlage für diese Beobachtung ist die Annahme, dass sich die wissenschaftliche Produktionsweise in einer Weise verändert hat, wie es die Protagonisten des Mode 2- und des Triple Helix-Konzepts behaupten.⁷ Das bedeutet in erster Linie eine generell stärker anwendungsorientierte Forschung, in der in temporären Netzwerken WissenschaftlerInnen und Praktiker zusammenarbeiten. Im Unterschied zu der akademisch disziplinär orientierten Wissensproduktion, die im Rückgang begriffen sei, spiele in der anwendungsorientierten Form der Wissensproduktion der Bedarf der Gesellschaft nach wissenschaftsbasierten Problemlösungen eine wesentliche höhere Rolle. Diese Entwicklung führt nach Meinung einiger Beobachter zu einem veränderten Fokus der Qualitätssicherungssysteme mit Blick auf die Kriterien, die Evaluatoren und die Dimensionen der Evaluationen. Es wird zum einen notwendig, das Monitoring und die Bewertung von netzwerkartigen Organisationsformen transnational ausgerichteter Forschungszusammenhänge prozessorientiert zu gestalten. Dahinter steht der Wunsch, den damit verbundenen Chancen und Lernprozessen den angemessenen Raum zu bieten. Zum anderen richten sich Erfolgskriterien auf eine "socially robust knowledge" und Reer-Review-Prozesse werden so modifiziert, dass sie Anwender und Praktikerinnen mit einbeziehen.⁸ Insbesondere neue komplexe Formen der Forschungsorganisation sollen dazu führen, dass Qualitätssicherungssysteme in der Wissenschaft ihnen verstärkte Aufmerksamkeit widmen bzw. widmen sollten, wenn sie ›erfolgreiche‹ Forschung fördern wollen. Dieses modifizierte Peer-Review-Modell nehme insbesondere in den skandinavischen Wissenschaftssystemen eine wichtige Rolle für Empfehlungen zur Entwicklung der jeweiligen Forschungseinrichtung ein.⁹ Insgesamt wird festgestellt, dass sich die Standards für Qualitätssicherung und Qualitätskontrolle in der Wissenschaft und in anderen gesellschaftlichen Teilbereichen zunehmend angleichen. Als positive Folge sollen generalisierbare Standards zu mehr Vertrauen in die ›Produkte‹ der jeweiligen Organisation führen.

Bei einer genaueren Betrachtung der neueren Entwicklungen der Bewertungssysteme von Wissenschaft und Forschung wird deutlich, dass wir es nicht nur mit einer Richtung zu tun haben, sondern mit unterschiedlichen Entwicklungen und Formaten in einem Kontext, in dem Steuerung und Koordination in den Wissenschaftssystemen insgesamt unter Druck geraten sind. Wissenschaftliche Einrichtungen sind hierbei zunehmend herausgefordert, ihre Position zu definieren und zu finden.

Die Kritik: Falsche Anreize und wissenschaftsfremder impact

Es fällt auf, dass die Kritik an der Zunahme evaluativer Aktivitäten und insbesondere der quantitativen Verfahren wie Rankings und Ratings im deutschen Wissenschaftssystem, zumeist mit Wehmut nach ›vorevaluativen‹ Zeiten behaftet ist, so als ob zuvor alles ganz gut durch die Selbststeuerung der Fachgemeinschaften funktioniert hätte. Man bedenke aber in diesem Zusammenhang die erheblichen Strukturprobleme bspw. in der Nachwuchsförderung und der sogenannten ›Versäulung‹ des Forschungssystems, die insbesondere in Systemevaluationen außeruniversitärer Forschungseinrichtungen thematisiert wurden. Und es gerät zuweilen in Vergessenheit, dass das Bewerten wissenschaftlicher Leistungen - sei es nun in Berufungen, in der Begutachtung von Zeitschriftenartikeln - von jeher zum Kanon guter akademischer Arbeit gehört.

Zentrale Kritikpunkte beziehen sich auf falsche Anreize, die die intrinsische Motivation der WissenschaftlerInnen untergraben, zu Fehlsteuerungen und zu (nicht intendierten) Anpassungseffekten führen.¹⁰ Letztendlich, so der Tenor, rauben sie der Wissenschaft nur eine ihrer wichtigsten Ressourcen: Zeit. Ein Generalverdacht gilt der Gefahr einer Überformung von Wissenschaft und ihrer eigenen Qualitätsansprüche und -kriterien durch wissenschaftsfremde Interventionen. Hierzu zählt mitunter schon die Frage nach dem gesellschaftlichen impact von Forschungen und Forschungsergebnissen. Quantifizierende Verfahren führten dazu, dass einerseits nur bestimmte Publikationsformen wie die Artikel in refereed journals zur Kenntnis genommen und gezählt werden und andererseits der Anreiz durch "numerische Kriterien zur Leistungsbeurteilung eines Forschers die Vielschreiberei begünstigt", wie es jüngst der DFG-Präsident Matthias Kleiner ausdrückte.

Vieles an dieser Kritik ist sicherlich berechtigt, vor allem an den quantifizierenden Evaluationen, bei denen nur noch einige wenige standardisierte Zahlen ohne Kontext generiert werden, die dann spezifische Aufgabenprofile und Leistungen wissenschaftlicher Einrichtungen nicht mehr adäquat abbilden können. Sie rufen spezifische Reaktionen von Forschungsinstituten und Hochschulen hervor, wie es jüngst Espeland und Sauder anhand des Rankings US-amerikanischer Law Schools untersucht haben.¹¹ Das Problem, angemessene Kriterien und Indikatoren zu finden, ist aber nicht nur für diese Verfahren typisch, sondern ist genereller Natur. Auch in den institutionellen Peer Review-basierten Evaluationen etwa von Forschungseinrichtungen ist zu beobachten, dass des Öfteren trotz ausgefeilter und umfangreicher Kriterien- und Indikatorenkataloge die Bewertung auf wenige und implizit gerankte Kriterien zusammenschnurrt. Dazu zählen in erster Linie Artikel in peer reviewed journals und in wettbewerblichen Verfahren eingeworbene Drittmittel - vornehmlich bei der Deutschen Forschungsgemeinschaft. Als Bewertungsgrundlage für bspw. wissenschaftliche Einrichtungen, die neben Forschung auch Service- und Beratungsleistungen qua Auftrag erbringen sollen, sind diese Kriterien aber nicht ausreichend. Sie können in der Tat zu dann extern induzierten Umsteuerungen führen, die zwar einem Konsens über die Indikatorik für gute oder im heutigen Zeitalter ›exzellente‹ Wissenschaft entsprechen, aber eben nicht das Gesamtportfolio des Instituts abbilden. Hinzu kommt die Problematik, angemessene Kriterien für eher anwendungsorientierte Forschung bzw. Transferleistungen von Forschungsergebnissen in gesellschaftliche Teilbereiche - etwa in die wirtschaftliche Verwertung - zu generieren; Patente zählen nützt nicht so viel.

Die Peers urteilen nach eigenen Maßstäben

Bei einer genaueren Betrachtung sind also die Möglichkeiten einer wissenschaftspolitischen Steuerung von Hochschulen und Forschungseinrichtungen über umfangreiche Kriterienkataloge in Peer Review-basierten Evaluationen begrenzt. Die FachkollegInnen haben ihre Vorstellungen von Qualitätskriterien für gute Wissenschaft in den jeweiligen Disziplinen und setzen diese in der Regel auch durch. Das heißt nicht, dass diese Kriterien für die jeweilige evaluierte Einrichtung hinsichtlich ihres Aufgaben- und Leistungsprofils immer angemessen sind, aber anders, als es zeitweilig der öffentliche Diskurs suggeriert, können solche wissenschaftsinternen Maßstäbe, Referenz- und Reputationssysteme nicht einfach ausgehebelt werden. Weiter ist auffällig, dass Evaluationen zwar in erster Linie - zumindest so wie sie bislang im deutschen Wissenschaftssystem konzipiert sind und eingesetzt werden - eine bewertende Instanz sind. Aber Gutachter verstehen sich darüber hinaus auch als Berater, als ›Fachkollege auf gleicher Augenhöhe‹ und sorgen damit für eine Anschlussfähigkeit für das, was für ein Mitglied einer Fachcommunity zum Alltagsgeschäft wissenschaftlicher Arbeit gehört: kollegialer Austausch und Beratung. Forschungseinrichtungen nehmen auf der anderen Seite Gutachter auch in den beiden Rollen wahr. Sie versuchen etwa, Empfehlungen zur Weiterentwicklung eines Instituts oder Fachbereichs für ihre internen Pläne zu nutzen - und sei es nur als eine mit externer Reputation ausgestattete Validierungsinstanz.

Allerdings entstehen durch diese ›Doppelfunktion‹ Konflikte für die Evaluierenden, wie etwa die Frage, ob offen über Problemlagen und selbst wahrgenommene Schwächen gesprochen werden kann, wenn es letztendlich darum geht, ob die jeweilige Einrichtung weiter staatlicherseits gefördert werden soll. Bei aller Kritik am Peer Review als risikoaverse ›Fachgemeinschaft‹ und vielem mehr, kann aber davon ausgegangen werden, dass die Peers in Wissenschaftsevaluationen eine der zentralen vertrauensbildenden Größen darstellen.¹²

Wie weiter?

Evaluationen sind in der Wissenschaft nicht mehr wegzudenken und es gibt hierzu keine wirkliche Alternative, wenn man nicht ausschließlich auf Selbstregulierung in den Disziplinen setzen will. Aber es ist wohl an der Zeit einen Systemblick und eine Metaevaluation verschiedener Evaluationsverfahren im deutschen Wissenschaftssystem zu wagen: Was ist an Zielprämissen, Verfahren und Instrumenten brauchbar, von welchen Elementen sollte man sich auch verabschieden? Wie sind die Verfahren weiterzuentwickeln? Und dies scheint insbesondere in einer Situation wichtig, in der Hochschulen und Forschungseinrichtungen herausgefordert sind, angemessene Instrumente für ihre internen Problemdiagnosen, Leistungsparameter und Strategien zur Weiterentwicklung der Organisation zu entwickeln. Ein traditionelles Verständnis von Organisationsentwicklung in der Universitätsforschung als "either the implicit outcome of some tacit knowledge or learning organised as a craft guild system based on peer system"¹³ passt nicht mehr in die Zeiten der individuellen und institutionellen Leistungsbewertung, der Erstellung von Programmbudgets, Kosten-Leistungs-Rechnungen, leistungsorientierter Mittelvergabe, Ziel- und Leistungsvereinbarungen, interner und externer Qualitätskontrolle und -sicherung, Rankings und Ratings.

Und sicherlich ist eines bei Evaluationen richtig: weniger und zielorientiert ist mehr!

Anmerkungen

¹) Dieser Beitrag wurde zuerst veröffentlicht in: BdWi / fzs / GEW / NatWiss / ÖH (Hg.), 2011: Wege und Irrwege in die Wissensgesellschaft. Forschungspolitik zwischen Standortsicherung und gesellschaftlicher Verantwortung. BdWi-Studienheft 7, Marburg.

²) Knie, Andreas / Simon, Dagmar, 2008: "Peer and Politics. Wissenschaftsevaluationen in der Audit Society", in: Schuppert, Gunnar Folke / Voßkuhle, Andreas (Hg.), Governance von und durch Wissen , Baden Baden, 173-188; Matthies, Hildegard / Simon, Dagmar, 2007: Wissenschaft unter Beobachtung. Effekte und Defekte, Wiesbaden.

³) Hornbostel, Stefan, 2010: "Forschungs-Evaluationen", in: Simon, Dagmar / Knie, Andreas / Hornbostel, Stefan (Hg.), Handbuch Wissenschaftspolitik, Wiesbaden, 293-309.

⁴) Lange, R., 2010: "Rankings und Ratings", in: Simon / Knie / Hornbostel (Hg.) 2009, 322-333.

⁵) Heintz, B., 2008: "Governing by Numbers. Zum Zusammenhang von Quantifizierung und Globalisierung am Beispiel der Hochschulpolitik", in: Schuppert / Voßkuhle (Hg.) 2008, 110-128

⁶) Hemlin, Sven / Rasmussen, Sören B., 2006: "The Shift in Academic Quality Control", in: Science, Technology & Human Values, 1/24, 173-198.

⁷) Nowotny, Helga, 1999: "The need for socially robust knowledge", in: TA-Datenbank-Nachrichten, 8 (3/3), 12-16; Nowotny, Helga / Gibbons, Michael / Scott, Peter, 2001: Re-thinking science: Knowledge and the public in the age of uncertainty, Oxford; Etzkowitz, Henry / Leydesdorff, Loet, 1997: Universities in the global knowledge economy: A triple helix of university-industry-government relations, London.

⁸) Hemlin / Rasmussen 2006, 175.

⁹) Frederiksen, Lars Frode / Hansson, Finn / Wenneberg, Soren B., 2003: "The Agora and the Role of Research Evaluation", in: Evaluation, Vol. 9 (2), 149-172.

¹⁰) Kieser, Alfred, 2010: "Unternehmen Wissenschaft?", in: Leviathan, Jahrgang 38, Heft 3/2010, 347-368.

¹¹) Espeland, Wendy Nelson / Sauder, Michael, 2007: "Rankings and Reactivity: How Public Measures recreate Social Worlds", in: American Journal of Sociology, Vol. 113, Nr. 1, 1-40.

¹²) Neidhardt, Friedhelm, 2010: "Selbststeuerung der Wissenschaft: Peer Review", in: Simon / Knie / Hornbostel (Hg.) 2010, 280-292.

¹³) Hansson, Finn, 2006: "Research evaluation and organisational learning in the university: a possible coexistence?", in: International Journal Learning and Change, Vol.1, No. 3, 267-284.

Dagmar Simon ist Politikwissenschaftlerin und leitet die Forschungsgruppe Wissenschaftspolitik am Wissenschaftszentrum Berlin für Sozialforschung.