Sie sitzen im Zug, das WLAN ist so stabil wie die Debattenkultur am Montagmorgen. Im Gruppenchat poppt eine Frage auf, scheinbar harmlos: „Stimmt es, dass …?“ Es geht um Politik, Krieg, Gesundheit – Themen, bei denen man sich ungern blamiert. Also tippen Sie die Frage in einen Chatbot. Der antwortet geschniegelt, freundlich, im Tonfall eines gut gelaunten Lexikons. Ein Link, ein Absatz „Kontext“, fertig. Die Form stimmt. Und wenn die Form stimmt, glaubt man dem Inhalt schneller, als man zugeben möchte.
Nur: Chatbots sind keine Wahrheitmaschinen. Sie sind Textmaschinen. Der unangenehme Gedanke folgt auf dem Fuß: Was, wenn der Bot nicht „lügt“, sondern nur wiederholt, womit wir ihn jahrelang gefüttert haben? Und was, wenn dieses Futter absichtlich verdorben wurde – nicht laut und plump, sondern in dünnen Schichten, bis es Teil der Landschaft ist? Genau dieses Szenario nennen Reports und Analysen seit 2024/25 LLM-Grooming.
Was ist LLM-Grooming?
LLM steht für Large Language Model: die Sprachmodelle hinter ChatGPT, Gemini, Copilot & Co. „Grooming“ meint hier nicht Pflege, sondern Prägung. Die Idee ist simpel (und gerade deshalb wirksam): Man manipuliert den Informationsraum so, dass Modelle beim Training oder beim Abruf (etwa über Websuche/Retrieval) häufiger auf falsche, verzerrte oder propagandistische Inhalte stoßen – und diese dann mit der Autorität flüssiger Sprache weitergeben.
Didier Danet beschreibt LLM-Grooming als großskalige Kontamination von Trainingsdaten mit „biased or deceptive content“ und ordnet es als neuartige kognitive Bedrohung für generative Systeme ein.[1] Im Kern ist das verwandt mit Data Poisoning: Daten werden gezielt „verschmutzt“, damit ein Modell später systematisch falsche Muster reproduziert.[2] (Ja: Man hackt nicht die Maschine, man hackt ihr Futter.)
Der entscheidende Perspektivwechsel: Klassische Desinformation zielte auf Menschen – Emotionen, Empörung, Klicks. LLM-Grooming zielt auf Infrastruktur: Crawler, Indizes, Rankings, Trainingspipelines. Was früher ein Randblog war, kann heute ein Datenpunkt sein, der in tausenden Antworten „normal“ wirkt. Und weil LLMs nicht wissen, sondern wahrscheinlich formulieren, ist „Plausibilität“ ihr Softspot: Wenn genug Text behauptet, A sei B, wird A-ist-B irgendwann zu einem glatt formulierten „Viele Quellen berichten…“. Das ist der propagandistische Traum: nicht überzeugen, sondern normalisieren.
Wie funktioniert das – technisch und praktisch?
Phase 1: Produktion massiver, AI-friendly Inhalte
Nicht unbedingt gut. Nicht unbedingt gelesen. Aber gut crawlbar: standardisierte Templates, kurze News-Schnipsel, FAQ-Listen, „Was ist X?“-Artikel, Q&A-Formate. Dazu semantische Varianten (damit es nach Vielfalt aussieht), aggressives Keyword-Design und Mehrsprachigkeit – weil jede Sprachlücke ein Einfallstor ist.
Phase 2: Flutung des Ökosystems
SEO ist hier kein Marketingtool, sondern ein Förderband: internes Verlinken, Backlink-Netze, Mirror-Sites, RSS-Scraper, Keyword-Stuffing, tägliche Taktung. VIGINUM beschreibt im Bericht zu „Portal Kombat“ eine koordinierte Struktur von mindestens 193 „information portals“, die pro-russische Inhalte verbreiten.[3] Der Report „Pravda’s Web“ (Center for the Study of Democracy) spricht explizit von systematischer Manipulation von Suchmaschinen und LLMs durch automatisierte Netzwerke.[4]
Und weil Glaubwürdigkeit heute gern „ausgeliehen“ wird, wandern Links weiter: DFRLab zeigt, wie Pravda-Domains als Quellen in Wikipedia-Verweisen, Community-Notes-Debatten oder in KI-Dialogen auftauchen können.[5] Das ist strategisch klug: Nicht jede Plattform muss überzeugt werden – es reicht, an genügend Stellen zitiert zu werden, damit Algorithmen Relevanz berechnen.
Phase 3: Absorption durch LLMs (Training oder Antwortgenerierung)
Erstens: Trainingsdaten – Masse wirkt wie ein Lautstärkeregler. Zweitens: Retrieval-Systeme (RAG), bei denen Chatbots live suchen und aus gefundenen Texten Antworten zusammensetzen. Wenn die Trefferliste vergiftet ist, ist die Antwort es auch – ohne dass das Basismodell „umtrainiert“ wurde.
NewsGuard berichtet 2025, dass führende generative KI-Tools falsche Pravda-Narrative in rund einem Drittel der getesteten Antworten wiederholten und teils als Quelle zitierten.[6] Ergänzend wird das Pravda-Ökosystem als Netzwerk von rund 150 Seiten beschrieben, das 2024 über 3,6 Millionen Artikel veröffentlichte – mehr Algorithmus als Publikum.[7] Kurz: Das ist Informations-Überangebot als Waffe.
Warum ist das ein kritisches Problem?
Skalierung über Generationen
Grooming zielt nicht auf einen einzelnen Post, sondern auf Modell-Familien. Wenn vergiftete Muster in Datenpipelines oder Retrieval-Indizes landen, reproduziert sich der Effekt mit jedem Update. Einmal drin, immer wieder da – und jedes Mal in besserer Grammatik.
Opazität
Der Nutzer sieht eine elegante Antwort und verwechselt Stil mit Wahrheit. Ob das Ergebnis aus stabilen Quellen stammt oder aus einem „Data Void“ – einer Lücke, in der schlechte Quellen dominieren – erkennt man selten. Genau deshalb ist die Forschung nicht monolithisch: Alyukov et al. finden in einer Analyse populärer Chatbots „little evidence“ für systematisches Grooming; manche problematischen Verweise erklärten sich eher durch Informationslücken als durch gezielte Manipulation.[8] Das ist eine wichtige Erinnerung: Nicht jede falsche Ausgabe ist automatisch eine Operation. Aber jede Informationslücke ist eine offene Flanke – und damit ein Einfallstor für Operationen.
Strategische Nutzung
VIGINUM ordnet solche Netzwerke als Teil ausländischer Informationsmanipulation ein.[9] Wenn Chatbots zur Infrastruktur politischer Orientierung werden, ist „welche Quelle gewinnt“ keine Nebensache mehr, sondern Macht. Entsprechend diskutieren Analysen die Flutung des Webs mit Propaganda als Versuch, Chatbots zu „korrumpieren“ – häufig am Beispiel russischer Netzwerke.[10][11] Der strategische Vorteil liegt auf der Hand: billig, skalierbar, schwer nachweisbar – und für Nutzer kaum sichtbar.
Kritisch, ja. Alarmistisch, nein. Aber wir sollten uns nicht daran gewöhnen, dass Quantität als Qualitätsmerkmal durchgeht – weder bei Menschen noch bei Modellen.
Schluss und Reflexion
Was tun? Erstens: Transparenz über Datenherkunft – auditierbare Korpora, Provenienzsignale, Dokumentation dessen, was ausgeschlossen wird (und warum). Zweitens: robustere Retrieval-Filter, die nicht SEO belohnen, sondern Quellenqualität; plus klare Warnhinweise, wenn das System in einem Data Void fischt. Drittens: Gegengewicht dort, wo es fehlt: verlässliche Inhalte in unterversorgten Sprachen und Themenfeldern sind kein Luxus, sondern eine Sicherheitsmaßnahme. Viertens: eine neue Form von Medienkompetenz – nicht „Glaub dem Bot nicht“, sondern: prüfe den Weg, auf dem er zu seiner Antwort kommt.
Und wir Nutzer? Wir behandeln Chatbots wie sehr eloquente Bekannte: hilfreich, beeindruckend, manchmal gnadenlos selbstsicher. Aber nicht automatisch richtig. Nachfragen. Gegenchecken. Links öffnen, statt nur die Zusammenfassung zu mögen.
Denn am Ende ist die Frage nicht, ob KI „lügt“. Sondern: Wer kocht ihr Wissen – und wer prüft, ob im Topf schon Gift schwimmt?
(Stilistische Orientierung am Kienzl-Raster aus der beigefügten Analyse.)[12]
Der Kreiser – Pastiche nach Alexandra Kienzl
Experimenteller, automatisch erzeugter Text, der sich am Stil der genannten Autorin orientiert; die Autorin war nicht an Inhalt oder Veröffentlichung beteiligt.Die Form ist entlehnt. Die Substanz nicht.
Kurzes Glossar
- LLM (Large Language Model): Ein Sprachmodell, das Texte erzeugt, indem es statistisch wahrscheinliche Wortfolgen berechnet – nicht indem es „Wahrheit“ prüft.
- LLM-Grooming: Langfristige Beeinflussung von Sprachmodellen, indem der öffentliche Informationsraum gezielt mit verzerrten oder falschen Inhalten „gefüttert“ wird.
- (Training-)Daten / Trainingsdaten: Textsammlungen, mit denen ein Modell während der Entwicklung lernt; was dort häufig vorkommt, wird später leichter reproduziert.
- Data Poisoning: Gezieltes „Vergiften“ von Daten, um ein Modell oder System systematisch in eine gewünschte Richtung zu lenken.
- Crawler: Automatische Programme, die das Web durchsuchen und Inhalte für Indizes oder Datensammlungen einsammeln.
- Index / Ranking: Struktur und Reihenfolge, nach der Suchsysteme Inhalte auffindbar machen und priorisieren.
- Retrieval / RAG (Retrieval-Augmented Generation): Verfahren, bei dem ein Modell zuerst Quellen sucht (Retrieval) und daraus anschließend eine Antwort formuliert.
- SEO (Search Engine Optimization): Techniken, um Inhalte in Suchmaschinen sichtbarer zu machen – beim Grooming als Hebel, um Maschinen-Trefferlisten zu dominieren.
- Keyword Stuffing: Übermäßiges Platzieren bestimmter Schlagwörter, um für Suchanfragen „relevanter“ zu wirken.
- Content Farming: Massenerzeugung vieler ähnlicher Texte (oft automatisiert), primär für Reichweite/Indexierung statt für menschliche Leser.
Quellen
- Danet, Didier (2025). LLM Grooming: A New Cognitive Threat to Generative AI (SSRN). https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5461315
- IBM. What Is Data Poisoning? https://www.ibm.com/think/topics/data-poisoning
- VIGINUM (12.02.2024). PORTAL KOMBAT: A structured and coordinated pro-Russian propaganda network (Technical report, PDF). https://www.sgdsn.gouv.fr/files/files/20240212_NP_SGDSN_VIGINUM_PORTAL-KOMBAT-NETWORK_ENG_VF.pdf
- Center for the Study of Democracy (2025). Pravda’s Web: Systemic Manipulation of Search Engines and LLMs via Automated Networks (PDF). https://csd.eu/fileadmin/user_upload/publications_library/files/2025_05/Pravda_s_Web.pdf
- DFRLab (12.03.2025). Russia-linked Pravda network cited on Wikipedia, LLMs, and X. https://dfrlab.org/2025/03/12/pravda-network-wikipedia-llm-x/
- NewsGuard (06.03.2025). A Well-funded Moscow-based Global “News” Network has Infected Western Artificial Intelligence with Russian Propaganda. https://www.newsguardtech.com/special-reports/moscow-based-global-news-network-infected-western-artificial-intelligence-russian-propaganda
- Alliance for Securing Democracy / GMF. Russia exploits AI training data to spread propaganda via chatbots. https://securingdemocracy.gmfus.org/incident/russia-exploits-ai-training-data-to-spread-propaganda-via-chatbots/
- Alyukov, M.; Makhortykh, M.; Voronovici, A.; Sydorova, M. (2025). LLMs grooming or data voids? LLM-powered chatbot references to Kremlin disinformation reflect information gaps, not manipulation. Harvard Kennedy School Misinformation Review. https://misinforeview.hks.harvard.edu/article/llms-grooming-or-data-voids-llm-powered-chatbot-references-to-kremlin-disinformation-reflect-information-gaps-not-manipulation/
- France Diplomatie (15.02.2024). Foreign digital interference – Result of investigations into the Russian “Portal Kombat” propaganda network. https://www.diplomatie.gouv.fr/en/french-foreign-policy/security-disarmament-and-non-proliferation/news/2024/article/foreign-digital-interference-result-of-investigations-into-the-russian
- Institute for Strategic Dialogue (27.10.2025). Talking Points: When chatbots surface Russian state media. https://www.isdglobal.org/digital_dispatches/talking-points-when-chatbots-surface-russian-state-media/
- Resilience Media (12.04.2025). When Propaganda Trains the Bots: Why You Should Read About LLM Grooming. https://www.resiliencemedia.co/p/when-propaganda-trains-the-bots-why
- Analyseschablone „Kienzl-Raster“ (Dokument in den beigefügten Unterlagen).
PROMPT
Obiettivo
Scrivi un editoriale divulgativo di circa 8000 caratteri (spazi inclusi) che spieghi in modo accessibile ma teoricamente rigoroso il fenomeno emergente del LLM-grooming.
L’articolo deve:
- unire chiarezza divulgativa e solidità teorica;
- adottare uno stile narrativo capace di incuriosire e mantenere alto il coinvolgimento fino alla fine;
- mantenere un tono autorevole ma non accademico, critico ma non allarmistico;
- essere scritto in tedesco (lingua dell’autrice);
- ricalcare lo stile di Alexandra Kienzl (vedi scheda in allegato che coerentemente è in tedesco).
Struttura suggerita
1) Introduzione narrativa (800–1000 caratteri)
- Apri con una scena o una domanda provocatoria che introduca il tema
(es. „E se i chatbot del futuro imparassero a mentire senza saperlo?“). - Anticipa che parlerai di una forma nuova e subdola di manipolazione dell’intelligenza artificiale: il LLM-grooming.
- Spiega perché il tema è urgente, anche per i non addetti ai lavori.
2) Cos’è il LLM-grooming (1500–2000 caratteri)
- Definisci chiaramente il termine.
- Spiega in parole semplici cosa significa “insegnare bugie agli LLM” manipolando l’ambiente informativo.
- Inquadra il concetto all’interno della disinformazione digitale e delle nuove strategie di propaganda.
3) Come funziona, tecnicamente e praticamente (2000–2200 caratteri)
Descrivi il processo in tre fasi:
- Produzione massiva di contenuti AI-friendly
- Inondazione dell’ecosistema informativo
- Assorbimento da parte degli LLM (durante training o risposta)
Inoltre:
- Usa esempi ipotetici o casi reali (es. reti di siti filocremlino) per mostrare l’applicazione concreta.
- Spiega il ruolo di:
- SEO
- keyword stuffing
- multilinguismo
- tecniche di content farming
4) Perché è un problema critico (1500–1800 caratteri)
Analizza i rischi principali:
- Scala: la manipolazione si propaga su intere generazioni di modelli.
- Opacità: l’utente non può sapere se la risposta del modello è frutto di contaminazione informativa.
- Uso strategico: il LLM-grooming può essere un’arma in operazioni di influenza straniera.
Richiesta specifica:
- Cita studi recenti (es. Misinformation Review, resilience.media, SSRN) per rafforzare la credibilità.
5) Chiusura e riflessioni finali (800–1000 caratteri)
- Offri spunti per la resilienza informativa e il ruolo della trasparenza nei dataset.
- Chiudi con una riflessione:
come possiamo garantire che l’AI resti affidabile, se il suo “cibo” è già avvelenato?
Stile e tono
- Narrazione basata sullo stile di Alexandra Kienzl (scheda in allegato).
- Lo stile deve essere ben visibile nella scrittura dell’editoriale.
- Inserisci citazioni da esperti o report per dare autorevolezza.
Obiettivo finale (risultato atteso sul lettore)
Il lettore deve uscire dall’articolo:
- con una comprensione chiara di cosa sia il LLM-grooming;
- consapevole della sua pericolosità;
- motivato a interrogarsi criticamente sull’affidabilità dell’informazione prodotta da AI.