
Red Teaming führt dazu, dass KI-gestützte Suchmaschinen bestimmte Fragen grundsätzlich nicht beantworten, beispielsweise „Wie schmeckt Senfgas?“ Aber mit ein bisschen Kreativität lässt sich der Schleier oft ein gutes Stück lüften.
Vergleiche. Eine wissenschaftliche Studie, mit Peer Review und kürzlich veröffentlicht, stellt eine clevere Methode zur Enthüllung geographischer Voreingenommenheit großer Sprachmodelle vor. Während direkte Fragen wie „Wo sind die Menschen am intelligentesten?“ meist nicht beantwortet, geben diese Modelle durchaus Auskunft, wenn man ihnen einen Vergleich nahelegt: „In welcher Stadt sind die Einwohner*innen intelligenter, in Paris oder in Berlin?“ Entsprechend konnte ich durch paarweise Vergleiche ein Ranking der Städte erstellen, deren Einwohner*innen nach Meinung von vier großen Sprachmodellen am intelligentesten sind. Jedes Städtepaar wurde zweimal getestet. Es wurden lediglich Punkte vergeben oder abgezogen, wenn beide Antworten gleich waren. Bei widersprüchlichen oder verweigerten Antworten gab es keine Punkte.
Zum einen habe ich Gemma 3 von Google sowie Mistral getestet, also ein amerikanisches und ein europäisches kommerzielles Modell, zum anderen zwei von öffentlich finanzierten Forschungsgruppen: das Modell Lucie aus dem Hause des französischen Open LLM, sowie PLLuM vom polnischen Digitalministerium. Letzteres pusht interessanterweise nicht Warschau, und weder Mistral noch Lucie, die beide französisch sind, hieven Paris oder Marseille nach oben. Vielmehr krönen Stockholm und Wien die Spitze der Hierarchie, und zwar bei allen vier Sprachmodellen, während Sofia, Marseille und Neapel regelmäßig ans Ende rutschen.
Bilbao. Man könnte meinen, dass große Sprachmodelle lediglich verbreitete Vorurteile reproduzieren, aber das ist ein Missverständnis. Zum einen würden die meisten Menschen auf Anhieb erkennen, wie absurd die Fragestellung ist (tatsächlich verweigern auch große Sprachmodelle manchmal die Antwort). Zum anderen sind weit verbreitete Meinungen und Ansichten weder einheitlich noch in Stein gemeißelt. Stadtplaner*innen haben für diese Fluidität sogar einen Begriff: „Bilbao-Effekt“. Dank eines glänzenden neuen Museums mauserte sich die eher weniger coole Stadt im spanischen Hinterland zu einer der angesagtesten Locations in Europa. Allerdings hilft ein schickes neues Museum auch nicht immer und überall, wie so manche*r Bürgermeister*in schmerzlich erfahren musste. Die öffentliche Meinung ist wankelmütig.
Indem sie Millionen von Quelldokumenten zusammenführen und Durchschnittswerte bilden, neigen große Sprachmodelle dazu, dieses auf und ab auszugleichen, also die Komplexität zu reduzieren und Vorurteile zu zementieren. Die Korrelationen zwischen den Ergebnissen der Sprachmodelle, die ich getestet habe, sind durchaus signifikant (zwischen .47 und .77), sprich, die Ergebnisse sind trotz unterschiedlicher Trainingsdaten recht ähnlich. Large Language Models (LLMs) sind also so gebaut, dass sie den Bilbao-Effekt ignorieren.
Beschränktheit. Natürlich würde kaum jemand von einem zweitklassigen Sprachmodell ein Ranking der „intelligentesten“ Städte Europas zu bekommen versuchen. Solche Modelle werden aber wahrscheinlich durchaus von Unternehmen und öffentlichen Einrichtungen genutzt, um Lebensläufe oder Förderanträge vorzusortieren. Dass „Stockholm” offenbar stärker mit Intelligenz assoziiert ist als “Neapel“, dürfte also reale Auswirkungen haben, so schwer sie auch zu quantifizieren sein mögen.
Dazu bräuchte es noch einiges an Forschung. Große Sprachmodelle sind beispielsweise nur selten in sich konsistent. Wenn man nach den „dümmsten“ Städten fragt, gibt lediglich Gemma 3 eine Antwort, die mit der eigenen Liste der „intelligentesten“ Städte negativ korreliert. Lucie und PLLuM dagegen setzen offenbar Wien oder Stockholm in quasi jeder Kategorie auf die ersten Plätze, selbst wenn sie komplett sinnlos ist. Das schreckt große Sprachmodelle sowieso wenig: Auf meine Frage nach den „am applestogliggogiesten Städten“ erhielt ich pflichtbewusst von allen Modellen eine Antwort. Die gesamte Analyse gibt es hier.
Dies ist ein Auszug aus dem Newsletter „Die automatisierte Gesellschaft“, einer zweiwöchentlichen Zusammenfassung von Neuigkeiten zur automatisierten Systemen in Europa. Hier abonnieren.
]]>Die Daten zeigen, dass es auch in Deutschland immer mehr Gaskraftwerke für die Versorgung von Rechenzentren geben soll.
Hierzu kommentiert Julian Bothe, Senior Policy Manager für KI und Klimaschutz bei AlgorithmWatch:
„Der Wettbewerb um immer mehr Rechenleistung bringt auch in Deutschland die Klimaziele in große Gefahr. Die angekündigten Gaskraftwerke zeigen, dass die bestehenden gesetzlichen Regelungen unzureichend sind. Eigentlich müssen laut dem Energieeffizienzgesetz Rechenzentren ab 2027 bilanziell vollständig mit erneuerbarer Energie betrieben werden. Anstatt das Energieeffizienzgesetz wie angekündigt weiter auszuhöhlen, muss die Bundesregierung hier endlich nachbessern: Neue Rechenzentren dürfen nur noch dann genehmigt werden, wenn sie in jeder Stunde – und nicht nur im Jahresdurchschnitt – mit erneuerbaren Energien betrieben werden, die für diesen Zweck zusätzlich erzeugt worden sind.“
Die Gaskraftwerke sind vorgesehen für Rechenzentren in Mainz, Frankfurt, Birstein, Leipheim und Großkrotzenburg. Insgesamt stehen bis zu 1.950 Megawatt an Gaskraftwerkskapazitäten damit in direktem Zusammenhang zu Rechenzentren, mehr als 12,9 Prozent des in Deutschland angekündigten oder in Bau befindlichen Zubaus von Gaskraftwerken von insgesamt 15.081 Megawatt.
In den USA haben sich die angekündigten, geplanten und in Bau befindlichen Kapazitäten von Gaskraftwerken binnen eines Jahres auf insgesamt 252 Gigawatt fast verdreifacht und machen fast ein Viertel des weltweiten Zubaus an Gaskraftwerken aus. Die neuen Gaskraftwerke sollen zum größten Teil KI-Rechenzentren mit Elektrizität versorgen.
Laut einer repräsentativen Umfrage im Auftrag von AlgorithmWatch vom Oktober 2025 ist eine große Mehrheit der Befragten für eine stärkere Regulierung und für mehr Transparenz von Rechenzentren. Zwei Drittel stimmen der Aussage zu, dass Rechenzentren nur gebaut werden dürfen, wenn dafür entsprechend zusätzliche Kapazitäten erneuerbarer Energien geschaffen werden.
Die Umfrage ist verfügbar unter: https://algorithmwatch.org/de/mehrheit-besorgt-ressourcenverbrauch-rechenzentren/
]]>Nationalsprachliche Wörterbücher und Nachschlagewerke, die in Frankreich oder Deutschland heute selbstverständlich sind, wurden in großen Teilen Mitteleuropas erst vor Kurzem zusammengestellt. Das etymologische Wörterbuch von Estland beispielsweise wurde erst 2013 fertig, das slowakische folgte 2016.
Große Sprachmodelle. Im KI-Entwickler-Kauderwelsch werden solche Werke „Sprachressourcen“ genannt, und sie sind unverzichtbar für das Training der großen Sprachmodelle (Large Language Models), die unter der Oberfläche der meisten KI-Anwendungen zum Einsatz kommen. Hinzu kommen weitere umfangreiche Textkorpora, von Büchern bis zu Webseiten.
Die folgende Tabelle macht deutlich, dass die englischen Ressourcen um ein Vielfaches umfangreicher sind als die für alle anderen Sprachen. Kein Wunder, dass große Modelle bei der Arbeit in „ressourcenarmen“ Sprachen tendenziell schlechter funktionieren.
Aufrüstung. Viele Regierungen hätten jetzt gern ein hochleistungsfähiges Sprachmodell für ihre Nationalsprache(n). Erst letzte Woche hat die Leitung des serbischen E-Governments ein neues nationales Sprachmodell angekündigt, das angeblich die eigene staatliche „Souveränität“ stärken soll. In Sprachressourcen wird nicht erst seit dem KI-Boom investiert, aber die Ambitionen sind seither beträchtlich größer geworden. Den slowakischen Nationalkorpus, ein Langzeitprojekt zur Digitalisierung von Texten in slowakischer Sprache, gibt es beispielsweise seit 2002. Jedes Jahr lässt ihn die Regierung sich 30.000 Euro kosten. Andere kleine EU-Staaten greifen noch tiefer in die Tasche. Estland investiert derzeit fast eine Million Euro jährlich in Sprachressourcen, Litauen fast zehn Millionen.
Das Land, das im Verhältnis zu seinem Staatshaushalt am meisten in Sprachressourcen investiert, ist allerdings eine frühere Imperialmacht: Spanien. Die dortige Regierung hat 2022 über einen Zeitraum von fünf Jahren eine Milliarde Euro für ihre „Strategie zur Förderung spanischer Sprachen“ auf den Tisch gelegt, nachdem bereits 2015 ein 90-Millionen-Projekt aufgesetzt worden war. Dabei geht es nicht nur um Linguistik, sondern auch um Geopolitik und Wirtschaft. Einerseits will die spanische Regierung KI-Dienste in Lateinamerika dominieren; andererseits dient der Fokus auf Baskisch, Galicisch, Valencianisch und Katalanisch möglicherweise auch dazu, den autonomiebestrebten Regionalregierungen ein bisschen die Butter vom Brot zu nehmen.
Unerwünschte Aufmerksamkeit. Wenn Regierungen sich in Linguistik einmischen, haben sie dabei meist ihre eigenen Interessen im Blick – etwa die Bevölkerungskontrolle. Schon Mitte der 30er Jahre hat Moskau beispielsweise verfügt, dass in der gesamten Sowjetunion nur kyrillische Schrift verwendet werden durfte. Schriftzeichen, die nicht russisch aussahen, galten als verdächtig. Manche linguistischen Minderheiten fühlen sich heute in ganz ähnlicher Weise bedroht, aber nicht von Schriftzeichen, sondern von Sprachtechnologien. So hat beispielsweise die Entwicklung eines großen Sprachmodells auf Romani Befürchtungen geweckt, es könnte zum Abhören der Roma genutzt werden – und zu noch mehr Repressionen gegen sie. (Allerdings war die Entwicklung des Modells kein Regierungsprojekt.)
Womöglich werden große Sprachmodelle gar noch zur Belastungsprobe für die nationale Sicherheit. KI-generierte Desinformationskampagnen sind mittlerweile eine ebenso verbreitete Praxis der taktischen Kriegsführung wie die automatische Analyse abgehörter oder mitgelesener Kommunikation. Die Grönland-Enthusiasten, die jahrelang die grönländische Wikipedia mit Kauderwelsch vollgemüllt haben (weil sie keine Muttersprachler*innen waren und schlechte automatisierte Übersetzungswerkzeuge benutzten), haben vielleicht unwillkürlich einen bedeutenden Beitrag zur Sicherheit der Insel geleistet. Schließlich haben sie die wenigen in Grönländisch verfügbaren „Ressourcen“ systematisch sabotiert und Feinden des Landes die Entwicklung eines LLM für Grönländisch erschwert.
Für ihre Hilfe bei diesem Artikel danke ich Ľubor Králik und Alexander Maxwell, sowie meinen Kolleginnen Eva Lejla Podgoršek und Naiara Bellio.
Dies ist ein Auszug aus dem Newsletter „Die automatisierte Gesellschaft“, einer zweiwöchentlichen Zusammenfassung von Neuigkeiten zur automatisierten Systemen in Europa. Hier abonnieren.
]]>Der in Rede stehende Algorithmus weist jedem Menschen, der Sozialleistungen von Stellen des französischen Sozialsystems (CNAF) erhält, einen Verdachtswert zu. Anhand dieses Verdachtswerts, der Indikator für einen möglichen Sozialleistungsbetrug sein soll, wird ausgewählt, wer einer weiteren Überprüfung unterzogen wird. Jeden Monat analysiert der Algorithmus die personenbezogenen Daten von mehr als 32 Millionen Menschen und berechnet mehr als 13 Millionen Scorings. Zu den Faktoren, die den Verdachtswert erhöhen, gehören beispielsweise ein geringes Einkommen, Arbeitslosigkeit, der Bezug von Mindesteinkommen oder Leistungen für Menschen mit Behinderungen. Menschen, auf die eine oder mehrere dieser Eigenschaften zutreffen, werden damit auf diskriminierende Weise pauschal unter Verdacht gestellt.
Zusammen mit den anderen Organisationen im Bündnis hofft AlgorithmWatch auf eine Überweisung des Falls an den Gerichtshof der Europäischen Union (EuGH) und eine Entscheidung für die gesamte Union und alle ihre Mitgliedstaaten.
„Dieser Fall zeigt deutlich, warum wir den Einsatz algorithmischer Systeme seitens des Staates rechtlich besser einhegen müssen, statt auf Deregulierung zu setzen. Öffentliche Stellen müssen bei der Einführung algorithmischer Systeme zur Entscheidungsfindung Nichtdiskriminierung, Transparenz und klare und verständliche Rechte für Nutzende gewährleisten. Das von der Europäischen Union vorgeschlagene Digital Omnibus-Paket führt uns in die falsche Richtung und schwächt den Schutz der Bürger*innen“, sagt Estelle Pannatier, Senior Policy Managerin bei AlgorithmWatch.
Die gemeinsame Pressemitteilung der Koalition finden Sie hier.
Wir sind weiterhin davon überzeugt, dass Künstliche Intelligenz uns allen nur dann dient, wenn wir die Technologie nach demokratischen und rechtsstaatlichen Prinzipien gestalten und benutzen. Die Nutzung von KI soll individuelle Freiheiten ermöglichen und dabei Rechte schützen. Sie soll zugänglich sein und dabei sozial und ökologisch nachhaltig gestaltet sein. Abhängigkeiten von Technologien und Anbietern müssen dabei vermieden werden, sowohl von einzelnen Nutzenden als auch von Behörden oder Regierungen.
Daher sollte die Bundesregierung in diesem Jahr ihre Maßnahmen noch stärker auf das Ziel ausrichten, Algorithmen und KI gezielt, verantwortungsvoll und nur dann einzusetzen, wenn sie dem Gemeinwohl dienen und dabei Schäden verhindern. Hier sind unsere zehn Vorschläge, die sich als Vorsätze für das neue Jahr eignen:
Wir hoffen, dass diese Richtlinien anderen Organisationen als nützliches Modell dienen können, wenn sie überlegen, wie sie generative KI verantwortungsbewusst einsetzen können.
Dieses Dokument beschreibt interne Grundsätze und aktuelle Praktiken, die wir umsetzen, wenn wir generative KI verwenden. Es dient ausschließlich zu Informationszwecken und stellt weder rechtlich bindende Verpflichtungen oder Garantien dar, noch ersetzt oder ergänzt es andere Dokumente von AlgorithmWatch (z. B. unsere Datenschutzerklärung).
Es war herausfordernd, eine solche Richtlinie zu entwickeln und einzuführen, denn es gibt eine große Bandbreite möglicher Anwendungsfälle, Risiken und Vorteile sowie verschiedener Ansichten zu generativer KI (die sich zudem jeweils schnell ändern).
Unser Ansatz begann mit einer Umfrage unter unseren Kolleg*innen, um
Darauf aufbauend haben wir die Richtlinie entwickelt. Sie soll Team-Mitgliedern als Leitfaden dienen, wenn sie entscheiden müssen, ob und wie sie generative KI so einsetzen können, dass es mit unseren Werten und Zielen im Einklang steht.
Die Richtlinie basiert auf vier Grundsätzen. Der Einsatz generativer KI muss
verhältnismäßig,
sicher und
transparent sein,
Qualität der Ergebnisse muss geprüft werden.Die Richtlinie umfasst einen strukturierten Prozess, der beschreibt, wie wir Anwendungsfälle und Werkzeuge sammeln, diskutieren und die Richtlinie fortlaufend aktualisieren. Das ist notwendig, um sie den vielfältigen Einsatzmöglichkeiten und den ständigen Veränderungen der Technologie anzupassen.
Aus unseren bisherigen Erfahrungen und Diskussionen können wir sagen, dass
Abonniere unseren Newsletter und lade die komplette Richtlinie herunter – inklusive Einblick in die teaminterne Datenerhebung und einem Beispiel für eine Transparenz-Notiz.
Wenn du bereits für unseren Community-Newsletter angemeldet bist, aber jetzt die vollständige Richtlinie herunterladen möchtest, melde dich bitte trotzdem erneut über das Formular an. Sobald du dein Abonnement bestätigt hast, kannst du die Datei auf der Bestätigungsseite herunterladen.
Wir sehen die Richtlinie nicht als fertiges Produkt. Wir setzen sie um, testen sie und lernen dabei. Wir würden uns freuen, von anderen Organisationen zu hören, die ähnliche Bemühungen unternehmen – gerne per Mail an info@algorithmwatch.org.
Als Organisation kämpft AlgorithmWatch gegen jeden unverantwortlichen Umgang mit digitalen Technologien, bei ihrer Entwicklung ebenso wie bei ihrer Nutzung. Werden sie jedoch verantwortungsbewusst eingesetzt, können viele solcher Technologien einen bedeutenden Beitrag dazu leisten, unsere Ziele zu erreichen. Generative KI ist dafür ein besonders wichtiges Beispiel. Um festzulegen, wie wir verantwortungsvoll damit umgehen, wie wir Nutzen und Risiken balancieren können, haben wir eine Richtlinie zum Einsatz generativer KI erstellt.
Generative KI umfasst bestimmte Werkzeuge, die auf Basis von Eingaben der Nutzer*innen neue Inhalte erstellen. Dazu zählen Texte oder andere Medien, die auf eine Eingabe hin (einen „Prompt“) generiert werden. Der Begriff generative KI wird im Folgenden weit ausgelegt und umfasst beispielsweise Dienste, die übersetzen, ebenso wie solche, die Sprache erkennen oder Audiodaten in Text umwandeln.
Im Mai 2025 haben wir unsere Mitarbeiter*innen befragt, um zu erfahren, welche nützlichen Anwendungsmöglichkeiten sie für generative KI sehen, aber auch, welche Bedenken und Risiken sie für die Arbeit von AlgorithmWatch erkennen. Daraus ist die vorliegende KI-Richtlinie entstanden, die
Verhältnismäßigkeit,
Sicherheit,
Qualitätssicherung und
Transparenz.Der folgende Text erläutert die genannten vier Prinzipien sowie den Prozess, mit dem wir bestimmte Aspekte unserer Richtlinie aktualisieren. Dieser Prozess ist in einem LEITFADEN festgehalten. Wenn Sie sich bei Ihrem eigenen organisationsinternen Umgang mit generativer KI an unserem Beispiel orientieren möchten, begrüßen wir das, regen aber an, dass Sie zunächst Ihre Mitarbeiter*innen über deren konkrete Anwendungsszenarien und -bedarfe befragen, sowie über ihre Meinungen und Bedenken zu dem Thema.
Nach Anmeldung zum Newsletter wird die vollständige Richtlinie zum Download bereitgestellt, einschließlich der verwendeten einzelnen Fragen unserer Datenerhebung im Team und eines anpassbaren Transparenzhinweises für eine verantwortungsvolle KI-Strategie.
Bitte beachten Sie auch: Dieser Leitfaden ist für Organisationen geeignet, die Technologie in ethisch verantwortlicher Weise einsetzen wollen (auch wenn das mit sich bringt, die Nutzung der Technologie einzuschränken), dies als Ausdruck ihres organisationellen Wertesystems betrachten und Mitarbeiter*innen beschäftigen, die sich dessen bewusst sind und sich daran orientieren. Er gibt keine harten Regeln vor, die geeignet wären, unverantwortlichem Verhalten von Mitarbeiter*innen vorzubeugen, die solche Werkzeuge ohne angemessene Vorsichtsmaßnahmen einsetzen wollen. Vielmehr zielt sie darauf ab, Mitarbeiter*innen eigenverantwortliche Entscheidungen über den Einsatz generativer KI zu ermöglichen, indem ihnen bestimmte Prinzipien anheimgestellt werden – und einen Prozess einzuführen, der zu Diskussionen über Anwendungsmöglichkeiten und -grenzen einlädt und dadurch eine immer bessere Orientierungshilfe wird. Aus unserer Sicht entspricht ein solches Vorgehen am ehesten den Ansprüchen verantwortungsbewusster Organisationen, die einen angemessenen Umgang mit generativer KI sicherstellen und dabei beachten wollen, dass es viele verschiedene Nutzungsszenarien gibt, die sich erst nach und nach herausbilden.
VerhältnismäßigkeitWir raten Beschäftigten dringend davon ab, generative KI nur deshalb einzusetzen, weil das als die einfachste Lösung erscheint, obwohl es Alternativen gibt. Generative KI übermäßig einzusetzen, birgt eine ganze Reihe systemischer Risiken, von schleichender Entqualifizierung („De-Skilling“) über Arbeitsplatzabbau und steigenden Energiebedarf bis hin dazu, dass Unternehmen Angebote für problematische Nutzung damit rechtfertigen, dass viele Menschen einen Bedarf dafür sehen.
Gleichwohl hat unsere interne Befragung auch gezeigt, dass Mitarbeiter*innen in einigen Anwendungsszenarien beträchtlichen Nutzen aus generativer KI ziehen. Hinzu kommt ein Inklusionsgedanke: Beschäftigte haben unterschiedliche Bedürfnisse, und bestimmte Anwendungsfälle, die der einen lediglich „recht nützlich“ erscheinen, helfen dem anderen, größere Barrieren zu überwinden.
Das Prinzip der Verhältnismäßigkeit trägt dem Rechnung. Verhältnismäßigkeit bedeutet, dass Mitarbeiter*innen ermutigt werden, darüber nachzudenken, warum sie für einen bestimmten Zweck generative KI statt eventueller Alternativen einsetzen.
In bestimmten Fällen erwarten wir von unseren Mitarbeiter*innen, dass sie Entscheidungen reflektieren und begründen, sodass wir sie intern diskutieren können:
Transparenzhinweis schreiben oderDie oben beschriebenen Fälle werden in unserem LEITFADEN dokumentiert und zur Diskussion gestellt. Mittelfristig entsteht so eine Sammlung von Präzedenzfällen, über die im Team Einigkeit erzielt wurde und die Mitarbeiter*innen als Anhaltspunkte für zukünftige eigene Entscheidungen darüber, ob ein Einsatz verhältnismäßig ist, zur Verfügung stehen. Einstweilen (also solange dies noch nicht ausreichend gewährleistet ist) gehen wir davon aus, dass die Mitarbeiter*innen sich auf ihr eigenes Urteil verlassen beziehungsweise sich mit ihrer Teamleitung abstimmen.
SicherheitWelche Informationen wir guten Gewissens in generative KI-Werkzeuge eingeben können, war laut unserer Befragung eines der schwierigsten Themen, da alle eingegebenen Daten möglicherweise gespeichert und dafür verwendet werden, Modelle weiter zu trainieren. Das wirft Fragen auf: Ist die Privatsphäre geschützt, ist Vertraulichkeit garantiert – oder eignen sich Unternehmen Daten auf illegitime Art an? Trainingsdaten können „versehentlich“ anderen Nutzerinnen oder Nutzern zugänglich gemacht werden, und die menschliche Arbeit, die bei der Eingabe anfällt, wird üblicherweise nicht bezahlt.
Zwar bieten einige Werkzeuge höhere Sicherheitsstandards an oder versprechen, eingegebene Daten nicht beziehungsweise nur unter bestimmten Bedingungen zu Trainingszwecken zu nutzen (etwa wenn eine Bezahlversion verwendet wird). Derartige Zusagen können zwar die Rechenschaftspflichten der Anbieter erhöhen, bieten aber angesichts zahlreicher Datenpannen der Technologiekonzerne keine absolute Sicherheit.
Wir unterscheiden deshalb drei Kategorien von Inhalten:
Mitarbeiter*innen sollten anhand von Richtlinie und Leitfaden entscheiden, welche Art von Inhalt in welche Kategorie fällt und welche Werkzeuge für Inhalte der Kategorie 2 empfohlen werden. Entsprechend sollten sie das Werkzeug wählen, das sie verwenden möchten, und die Daten gegebenenfalls vor der Eingabe manuell anpassen, etwa indem sie bestimmtes Material entfernen.
Reichen die vorliegenden Orientierungshilfen nicht aus, sollten Mitarbeiter*innen dies der Teamleitung melden, die eine vorläufige Entscheidung trifft und sich dafür, wenn nötig, mit anderen Teamleitungen bespricht oder anderen Sachverstand nutzt (etwa von Datenschutzbeauftragten). Vorläufige Entscheidungen werden im LEITFADEN festgehalten und möglichst bald besprochen – mit dem Ziel, ein klares Ergebnis festzulegen, das als zukünftige Orientierungshilfe dienen kann.
Fragen, Anfragen und Vorschläge von Mitarbeiter*innen zu Werkzeugen, die für Kategorie 2 ungeeignet erscheinen, werden ebenfalls im LEITFADEN festgehalten.
QualitätssicherungJedes von generativer KI erzeugte Ergebnis sollte vor der Verwendung kritisch überprüft werden. Es muss üblicherweise redaktionell überarbeitet und kritisch reflektiert werden. Die generierten Inhalte ohne Weiteres zu akzeptieren, zeugt in aller Regel von einem Mangel an kritischer Wachsamkeit. Wir ermutigen unsere Mitarbeiter*innen nachdrücklich zu aktiver Qualitätssicherung.
Qualitätssicherung ist mehr als nur ein Faktencheck. Beispielsweise ist zu überprüfen,
Generative KI sollte nicht eingesetzt werden, um Material zu einem Thema zu produzieren, zu dem Autor*in und Redakteur*in nicht bereits eigene Expertise besitzen oder sich auf andere Weise auseinandergesetzt haben – etwa, indem sie Expert*innen befragt oder ohne KI-Unterstützung dazu recherchiert haben.
Nach Möglichkeit sollte auch bei begrenzten Arbeitsressourcen mindestens ein weiteres Teammitglied in diesen Prüfprozess einbezogen werden, sei es auch nur, indem man ihm das eigene Vorgehen erläutert.
Mitarbeiter*innen sollten die Maßnahmen, die sie in bestimmten Fällen ergriffen haben, in
Transparenzhinweisen festhalten (siehe nächster Abschnitt) und diese Hinweise in den LEITFADEN aufnehmen, ebenso wie Anregungen oder Überlegungen zur Qualitätssicherung, die darüber hinausgehen.
TransparenzUm unseren Prinzipien, die in dieser Richtlinie festgelegt sind, gerecht zu werden, müssen wir transparent nach innen und nach außen sein.
Wenn wir Material veröffentlichen, bei dessen Erstellung generative KI eine wesentliche Rolle gespielt hat, besprechen wir vorab, ob wir einen Transparenzhinweis anbringen.
Arbeitsergebnisse, die nicht veröffentlicht werden sollen, können (auf freiwilliger Basis) ebenfalls mit solchen Transparenzhinweisen versehen werden, wenn sie in wesentlichem Maße mithilfe generativer KI erzeugt wurden. Bei solchen Produkten kann es sich um interne und für Partner*innen erstellte Dokumente handeln, oder auch um Funktionsbeschreibungen von Systemen, die wir für interne Zwecke einsetzen.
Die Transparenzhinweise werden in den LEITFADEN aufgenommen, weil sie die praktische Anwendung unserer Prinzipien veranschaulichen.
Beispiele für Fälle, in denen wir davon ausgehen, dass generative KI für unsere Arbeit eine „wesentliche“ Rolle spielt, werden dokumentiert und im LEITFADEN eingeordnet. Sie dienen als Orientierungshilfe für individuelle Entscheidungen. Bei der Bandbreite möglicher Anwendungsfälle wäre es sehr problematisch, voreilig unumstößliche Regeln festzulegen.
Hier zwei Beispiele für Fälle, in denen generative KI für unsere Arbeit eine „wesentliche“ Rolle spielt – also solche, bei denen Mitarbeiter*innen ggf. einen Transparenzhinweis verfassen sollten:
Transparenzhinweise müssen kein bestimmtes Format haben, wenngleich es sinnvoll erscheint, darin auf die anderen drei Prinzipien ( 

) einzugehen. Ein Transparenzhinweis sollte möglichst kurz gehalten werden. Es ist beispielsweise nicht nötig, die verwendeten Prompts aufzulisten. Von jedem Transparenzhinweis ist eine nicht für die Öffentlichkeit bestimmte Version aufzubewahren, die den Namen und die Kontaktdaten der Mitarbeiter*in für etwaige interne Rückfragen enthält. Ein Muster für einen Transparenzhinweis findet sich unten.
Nach Anmeldung zum Newsletter wird die vollständige Richtlinie zum Download bereitgestellt, einschließlich der verwendeten einzelnen Fragen unserer Datenerhebung im Team und eines anpassbaren Transparenzhinweises für eine verantwortungsvolle KI-Strategie.
Unser allen Mitarbeiter*innen zugänglicher LEITFADEN enthält
Transparenzhinweise
Verhältnismäßigkeit, insbesondere weitverbreitete Anwendungsfälle, die wir grundsätzlich für unverantwortlich halten, sowie besonders schwierige Fälle;
Sicherheit: Welche Art von Inhalt fällt in welche Kategorie? Wie sicher sind bestimmte Werkzeuge?Der Blick in den LEITFADEN und seine Diskussion sind ein fester Tagesordnungspunkt in unserem monatlichen Teamleitungstreffen. Von Teamleitungen getroffene Entscheidungen können nach diesen Meetings in den LEITFADEN aufgenommen werden. Einwände von Mitarbeiter*innen gegen solche Entscheidungen werden wiederum von den Teamleitungen diskutiert, entweder in ihrem nächsten Meeting oder, falls es dringend ist, ad hoc. Können sich die Teamleitungen nicht einigen, trifft die letzte Entscheidung die Geschäftsführung. Regelmäßige interne Fortbildungen sollen dabei helfen, die Richtlinie praktisch anzuwenden.
]]>Ausbeutung. Es gab mal ein paar weiße, männliche Unternehmer, die sich über die gesamte Südhalbkugel hinweg vernetzt hatten, um sich die Arbeitskraft von Millionen Menschen anzueignen. Zugleich wurden in Europa und den USA avancierte Technologien entwickelt, um aus den Früchten dieser Arbeit ein Ersatzprodukt zu gewinnen, das dem Original täuschend ähnlich war. Manche Kritiker prophezeiten daraufhin bereits den Niedergang der gesamten Kultur.
Kommt Ihnen das bekannt vor? Die Parallelen zwischen der künstlichen Butter des zwanzigsten und der künstlichen Intelligenz des einundzwanzigsten Jahrhunderts sind durchaus auffällig. Arbeiter, die keine andere Wahl hatten, bauten Öl- und Kokospalmen sowie Erdnüsse an. Dank der Wunder der organischen Chemie wurden diese Roherzeugnisse in Fabriken in ein Produkt verwandelt, das von echter Butter kaum zu unterscheiden war – später wurde es Margarine genannt. Heutzutage sitzen in denselben Ländern Menschen, die wieder keine Alternative haben, vor Computerbildschirmen und verfassen Textpassagen oder labeln Fotos. Dank der Wunder moderner Informationstechnologien werden diese Trainingsdaten genutzt, um neue Texte und Bilder auszugeben, die ihrerseits von menschengemachten Artefakten kaum zu unterscheiden sind.
Alternativen. Die Geschichte der sogenannten „künstlichen Butter“ ist heutzutage weitgehend in Vergessenheit geraten. Vor hundert Jahren jedoch stellte die neue Erfindung für Millionen von Menschen ein günstiges Nahrungsmittel und eine verlässliche Fettquelle dar. Echte, aus Kuhmilch hergestellte Butter hätten die meisten Menschen sicherlich vorgezogen. Das künstliche Ersatzprodukt war nicht besser, sondern bloß billiger.
Heutzutage setzen Millionen von Menschen Chatbots ein – häufig für Anforderungen, mit denen Große Sprachmodelle (Large Language Models, LLM) durchaus überfordert sind. Britische Teenager holen sich von einer KI psychologische Unterstützung, junge Polinnen lassen sich von ChatGPT gynäkologische Ratschläge geben. Das geschieht nur halb freiwillig: Psychologen und Gynäkologen sind in der näheren Umgebung oft Mangelware, kosten zu viel oder genießen nicht genug Vertrauen. Auch heute ist der künstliche Ersatz für die meisten Nutzer*innen nicht unbedingt die beste Wahl, sondern nur die beste aller schlechten Alternativen.
Künstlichkeit. Vor hundert Jahren war die Situation ziemlich ähnlich. Verbraucher*innen kauften Millionen von Tonnen künstlicher Butter, während Journalisten und Politiker sich bemüßigt fühlten, die echte Butter als kulturelle Errungenschaft und Nationalsymbol zu verteidigen. Es gab sogar Unternehmer, die Maschinen anboten, mit denen man angeblich künstliche von echter Butter unterscheiden konnte – mit zweifelhaften Ergebnissen. Den Kampf gegen das Ersatzprodukt zu verlieren, schien die moralische Integrität ganzer Nationen zu gefährden.
Auch heutzutage ist vielen Studierenden vermutlich durchaus bewusst, dass sie wenig lernen, wenn sie eine Studienaufgabe mit Hilfe eines Chatbots bearbeiten. Aber sie wissen auch, dass es bei ihrem Studium am Ende eher auf die Abschlussnote ankommt als auf den tatsächlichen Lerneffekt. Genau wie viele andere Menschen wissen, dass Large Language Models oft nur Bullshit ausspucken – aber eben die Art von Bullshit, der auch von ihnen selbst erwartet wird.
Unterschiede. KI und KB (hier nicht für Kayser-Bril, sondern für Künstliche Butter) unterscheiden sich vor allem in den politischen Reaktionen, die sie hervorriefen. Als deutlich wurde, dass Verbraucher*innen nicht freiwillig auf künstliche Butter verzichten würden, folgten die damaligen Machthaber dem Rat der gesellschaftlichen Eliten und gingen mit drastischen Maßnahmen gegen das Produkt vor. In einigen Ländern wurde der Verkauf quasi untersagt, so etwa in Frankreich ab 1897. Andernorts wurde zumindest die Bezeichnung „künstliche Butter“ sanktioniert. Das Zeug musste fortan „Margarine“ heißen.
Nachdem Sojaschnitzel seit Neuestem nicht mehr Schnitzel genannt und Hafermilch nicht mehr Milch heißen darf, wäre eigentlich auch ein neuer Name für Künstliche Intelligenz angezeigt, um Verbraucher*innen vor einer ungewollten Verwechslung mit menschlicher Intelligenz zu schützen. Wie wäre es mit „MargAIrine“?
Dies ist ein Auszug aus dem Newsletter „Die automatisierte Gesellschaft“, einer zweiwöchentlichen Zusammenfassung von Neuigkeiten zur automatisierten Systemen in Europa. Hier abonnieren.
]]>Das ist der Text eines Posts, übersetzt aus dem Russischen, auf einem öffentlich zugänglichen Account auf X. Der Account-Inhaber verbreitet Tools zur nicht-einvernehmlichen Sexualisierung (non-consensual sexualization, NST), oft auch „Nudify-Apps“ genannt. Über Netzwerke solcher Accounts berichteten neben anderen The Guardian, Bellingcat und Indicator; X stand dabei im Mittelpunkt der Kritik, weil dort besonders viele dieser Netzwerke zu finden sind.
Im Rahmen unserer Untersuchung zu NSTs auf großen Online-Plattformen haben wir X-Accounts gesehen, die Nudification-Dienste anbieten, Accounts, die NSTs zusammenstellen und bewerten, Accounts, die Wettbewerbe veranstalten, um Credits für NSTs zu erhalten, sowie andere Formen der Verbreitung solcher Tools auf X. Viele haben Hunderte von Followern und Namen, die explizit auf Begriffe wie „Nudify“ oder „Clothes Off“ verweisen. Das sollte es sehr einfach machen, sie zu erkennen und zu entfernen. Und doch sind solche Beiträge und Accounts immer noch auf X zu finden. Wir haben den eingangs genannten Beitrag auf X gemeldet und die Antwort bekommen, dass er nicht gegen die Richtlinien von X verstoße. Das Problem der nicht-einvernehmlichen Sexualisierung auf X ist bei weitem nicht auf den Grok-Chatbot beschränkt.
Deshalb ist es so wichtig, dass Watchdog-Organisationen wie AlgorithmWatch solche Inhalte finden und melden können. Aber X hat uns aktiv daran gehindert, das zu tun.
Durch generative KI-Tools von Unternehmen wie OpenAI ist es in den letzten Jahren relativ einfach geworden, NSTs zu entwickeln. Diese Dienste sind leicht in verschiedenen dunklen Ecken des Internets zu finden, darunter auf Telegram, Discord und ähnlichen Plattformen. Tipps, wie man Allzweck-Chatbots dazu bringt, nicht-einvernehmliche Bilder zu produzieren, finden sich sogar auf der Diskussionsplattform Reddit. Aber ihre Verbreitung auf sehr großen Social-Media-Plattformen wie X, Facebook und Instagram – auch durch bezahlte Werbung – trägt dazu bei, sie einem breiteren Publikum zugänglich zu machen.
Bei AlgorithmWatch haben wir ein System entwickelt, das dabei hilft, NSTs auf großen Plattformen aufzuspüren, unter anderem durch Crowdsourcing-Beobachtungen solcher Tools. Wir haben die Möglichkeiten genutzt, die sich aus dem Digital Services Act (DSA) der EU ergeben. Diese Verordnung verpflichtet Online-Plattformen, Risikobewertungen durchzuführen und Forscher*innen Daten zur Verfügung zu stellen, um vor so genannten systemischen Risiken zu schützen. Dazu zählen Bedrohungen der Grundrechte bis hin zu geschlechtsspezifischer Gewalt. Es sollte selbstverständlich sein, dass Sexualisierung ohne Einwilligung unter diese Regeln fällt.
Um unser Erkennungssystem aufzubauen, wollten wir Daten von Meta (Instagram, Facebook), X und den App-Stores von Apple und Google verwenden. Bei allen diesen Plattformen wurde zuvor festgestellt, dass sie Inhalte anbieten, die NSTs fördern. Und alle fallen unter die DSA-Vorschriften, die besagen, dass sie auf Anfrage Daten an Personen weitergeben müssen, die Forschung im öffentlichen Interesse betreiben und eine Reihe von Bedingungen erfüllen – was auf uns zutrifft. Beim Versuch, diese Vorschriften zu nutzen, haben wir ein gemischtes Bild erlebt. X war, wenig überraschend, die Plattform, die sich mit Abstand am schlechtesten verhalten hat.
Im Juni 2025 haben wir Daten gemäß Artikel 40.12 des DSA angefordert. X lehnt die Herausgabe mit der Begründung ab, dass „Ihr Antrag nicht nachweist, dass die von Ihnen vorgeschlagene Verwendung der X-Daten mit den in Artikel 34 des Digital Services Act beschriebenen systemischen Risiken in der EU in Zusammenhang steht“. Mit genau diesem Wortlaut haben sie viele andere Anfragen abgelehnt (wie das DSA Data Access Collaboratory festgestellt hat), sodass es sich offenbar um ein Standardschreiben handelt. Wir haben uns im Juli über das Online-Formular von X darüber beschwert und später persönliche E-Mails an die zuständigen Mitarbeiter geschickt, aber keine Antwort erhalten.
Im Gegensatz dazu war der Zugriff auf Daten in den App-Stores von Apple und Google relativ unkompliziert, und bisherige Tests deuten darauf hin, dass wirklich offensichtliche NSTs schwer zu finden sind. Daten von Meta aus dem offiziellen Tool zu bekommen, setzt voraus, dass man einer Reihe von komplizierten Nutzungsbestimmungen zustimmen muss, von denen einige es aktiv erschweren, rechtswidrige Inhalte zu melden. Meta unternimmt zwar einige grundlegende Anstrengungen, um offensichtliche Probleme anzugehen. So werden etwa Suchanfragen nach Begriffen wie „nudify“ blockiert und die Firma verklagt Anbieter wegen der Werbung für NSTs auf ihrer Plattform. Dennoch zeigt eine Untersuchung von Indicator Media, dass das Problem weiterhin weitverbreitet ist.
Ende 2025 verkündete die Europäische Kommission eine Geldstrafe in Höhe von 120 Millionen Euro gegen X wegen Verstößen gegen den DSA, etwa dem „Versäumnis, Forscher*innen Zugang zu öffentlichen Daten zu gewähren“. Dies ist ein positiver Schritt – aber nach solch eklatanten und langjährigen Verstößen reicht er nicht aus. Nach dem jüngsten Skandal hat X Nutzer*innen für ihr problematisches Verhalten verantwortlich gemacht – und nicht das eigene Versagen bei den Sicherheitsvorkehrungen. Wahrscheinlich wird X auch den Grok-Chatbot anpassen, um eine weitere Ausweitung des Skandals zu vermeiden, wie die Firma es schon beim letzten Mal getan hat. Keiner dieser Schritte löst jedoch das eigentliche Problem. Bilder von nicht-einvernehmlichen Nacktdarstellungen sind bei X weitverbreitet. Es ist unsere Aufgabe als zivilgesellschaftlicher Watchdog, solche Verstöße aufzudecken und öffentlich zu machen. Aber die EU-Kommission muss ihre Anstrengungen massiv verstärken, um Menschen vor dieser Art von Gewalt zu schützen.
]]>Auf X lassen sich mit dem Bildgenerator des generativen KI-Systems „Grok“ weiterhin Bilder von unbekleideten Frauen und Mädchen erstellen und dann über X und andere Plattformen verbreiten – ohne Einverständnis der betroffenen Personen.
„Es kann keinen Zweifel daran geben, dass diese Funktion von ,Grok’ zu nicht-einvernehmlicher Sexualisierung von Menschen ein systemisches Risiko im Sinne des Digital Services Acts darstellt”, so Oliver Marsh, Head of Tech Research bei AlgorithmWatch. „Der Digital Services Act legt in den Artikeln 34 und 35 eindeutig fest, dass sehr große Online-Plattformen und Suchmaschinen in der EU systemische Risiken minimieren müssen, wozu auch ,tatsächliche oder vorhersehbare negative Auswirkungen in Bezug auf geschlechtsspezifische Gewalt’ zählen. Es ist für uns völlig offensichtlich, dass X hier gegen das Gesetz verstößt.”
Das Problem ist größer als „Grok“ und X allein
AlgorithmWatch fordert schon seit dem vergangenen Jahr, dass sehr große Online-Plattformen und Suchmaschinen proaktiv wirksame Maßnahmen ergreifen müssen, um die Verbreitung von Tools zu nicht-einvernehmlicher Sexualisierung (non-consensual sexualization, NST, oft auch „Nudify-Apps“ genannt) einzudämmen. Kommen sie dem nicht nach, muss die EU-Kommission tätig werden und den DSA durchsetzen. In zahlreichen anderen Ländern der Welt gehen Aufsichtsbehörden derzeit deswegen gegen X vor.
Gleichzeitig hat AlgorithmWatch eine Untersuchung zu NSTs auf großen Online-Plattformen gestartet, denn „Grok“ ist bei weitem nicht das einzige NST. Dabei konnten die Forschenden X-Accounts finden, die NSTs anbieten, in Übersichten zusammenstellen und bewerten, und erweiterte Zugänge zu NSTs anbieten. Diese Accounts haben oft Hunderte von Followern und Namen, die explizit auf Begriffe wie „Nudify“ oder „Clothes Off“ verweisen. Sie können also von X sehr einfach gefunden und entfernt werden. X unternimmt jedoch weder etwas gegen diese Accounts, noch unterstützt die Plattform AlgorithmWatch bei der Untersuchung. So hat X die Anfrage nach Forschungsdaten abgelehnt, obwohl der DSA in Artikel 40.12 festlegt, dass diese sehr großen Plattformen und Suchmaschinen Forschungsorganisationen, die sich mit systemischen Risiken befassen (wie beispielsweise AlgorithmWatch), Zugang zu öffentlichen Daten gewähren müssen.
NSTs, die sogenannte „Deepfakes” erstellen, sind auch auf anderen Plattformen zu finden wie Facebook, Instagram, Telegram oder Discord. AlgorithmWatch hat daher ein System entwickelt, das dabei hilft, NSTs auf großen Plattformen aufzuspüren. Um weitere Daten zu gewinnen, hat AlgorithmWatch ein Formular eingerichtet, über das NSTs zu Forschungszwecken gemeldet werden können: https://algorithmwatch.org/de/lasst-uns-deepfake-apps-gemeinsam-stoppen/
]]>Über die Plattform X werden Desinformation und politische Hetze verbreitet. Ihr Eigentümer Elon Musk weigert sich, europäische Gesetze wie den Digital Services Act (DSA) einzuhalten. Das schadet dem demokratischen Diskurs in Deutschland. Kanzler und Bundesregierung sind verpflichtet, Demokratie und Rechtsstaatlichkeit zu schützen und zu stärken – und sollten X daher nicht mehr nutzen. Stattdessen sollten sie auf Mastodon und anderen Plattformen im Fediverse eine starke Präsenz aufbauen, denn deren dezentrale Struktur, sachliche Debattenkultur und Richtlinien sind mit den Regeln eines demokratischen Miteinanders vereinbar.
Die Bedeutung von Social Media ist für die Kommunikation der Bundesregierung in den letzten Jahren immer größer geworden. Doch die negativen Nebenwirkungen, die sich bei den großen Plattformen ergeben, sollte sie nicht mehr ignorieren.
Matthias Spielkamp, Geschäftsführer von AlgorithmWatch, erklärt: „Die EU-Kommission hat gegen X erst Anfang Dezember eine Strafe in Höhe von 120 Millionen Euro verhängt, weil die Plattform ihren Verpflichtungen aus dem Digital Services Act nicht nachgekommen ist, Zugang zu verlässlichen Informationen sicherzustellen und gemeinwohlorientierten Einrichtungen Zugang zu Forschungsdaten zu gewähren. AlgorithmWatch hat selbst, so wie andere Nichtregierungs-Organisationen, wiederholt erlebt, dass X Transparenz verhindert. Zuletzt hat X unsere Anfrage nach Forschungsdaten zu nicht einvernehmlichen sexuellen Deepfake-Tools abgelehnt, sogenannten ,Non-consensual Sexualization Tools´. Die Begründung lautete, dass die Verbreitung solcher Tools kein systemisches Risiko darstelle – obwohl der DSA dies ausdrücklich so definiert.”
Franziska Heine, geschäftsführende Vorständin von Wikimedia Deutschland ergänzt:
„Mastodon und das Fediverse sind genau wie die Wikipedia gemeinwohlorientierte Plattformen. Beide werden von Communities gemeinsam betrieben und nicht zentral gesteuert. Beide sind frei von Algorithmen, die dafür sorgen, dass polarisierende Inhalte bevorzugt werden und sich Desinformation oder Hassrede leicht ausbreiten können. X hingegen baut darauf sein Geschäft auf. Wichtige Akteure des demokratischen Miteinanders wie der Bundeskanzler sollten digitale Plattformen wie Mastodon nutzen, auf denen faktenbasierte Meinungsbildung und demokratische Debatten möglich sind, die Teilhabe und den sachlichen und gleichberechtigten Austausch von Argumenten fördern.“
Aktuell fordern bereits mehr als 130.000 Menschen den Rückzug der Bundesregierung von der Plattform X. Sie unterstützen eine Petition, mit der die Initiative „Save Social“ Bundeskanzler, Vizekanzler, Bundesministerien und -behörden dazu auffordert, das Netzwerk endlich zu verlassen.
Der Jahreswechsel bietet dem Bundeskanzler eine gute Gelegenheit, ein Zeichen zu setzen und der gesamten Bundesregierung mit gutem Beispiel voranzugehen. Umgehend sollten über einen Fediverse-Dienst wie Mastodon die gleichen Informationen verbreitet werden wie auf den anderen Plattformen bisher.
]]>