Nota: Traduzione dall’originale tedesco. La versione di riferimento per analisi stilistica, retorica e sintattica è il testo tedesco.
Siete seduti in treno, il Wi-Fi è stabile quanto la cultura del dibattito del lunedì mattina. Nella chat di gruppo compare una domanda, apparentemente innocua: «È vero che …?». Si parla di politica, guerra, salute – temi su cui non si vuole fare brutte figure. Così digitate la domanda in un chatbot. Lui risponde pettinato, cordiale, con il tono di un’enciclopedia di buon umore. Un link, un paragrafo di «contesto», fatto. La forma è corretta. E quando la forma è corretta, si crede al contenuto più in fretta di quanto si vorrebbe ammettere.
Solo che: i chatbot non sono macchine della verità. Sono macchine di testo. E subito arriva il pensiero scomodo: e se il bot non “mentisse”, ma ripetesse soltanto ciò con cui lo abbiamo nutrito per anni? E se quel nutrimento fosse stato avariato di proposito – non in modo rumoroso e grossolano, ma a strati sottili, finché diventa parte del paesaggio? Proprio questo scenario, dal 2024/25, report e analisi lo chiamano LLM-Grooming.
Che cos’è l’LLM-Grooming?
LLM sta per Large Language Model: i modelli linguistici dietro ChatGPT, Gemini, Copilot & Co. “Grooming” qui non significa cura, bensì plasmatura. L’idea è semplice (e proprio per questo efficace): si manipola lo spazio informativo affinché i modelli, durante l’addestramento o durante il recupero (per esempio tramite ricerca web/retrieval), incontrino più spesso contenuti falsi, distorti o propagandistici – e li rilancino poi con l’autorità di un linguaggio scorrevole.
Didier Danet descrive l’LLM-Grooming come una contaminazione su larga scala dei dati di addestramento con contenuti “biased or deceptive content” e lo inquadra come una nuova minaccia cognitiva per i sistemi generativi.[1] In sostanza è affine al Data Poisoning: i dati vengono “sporcati” deliberatamente, così che un modello in seguito riproduca sistematicamente schemi errati.[2] (Sì: non si hackera la macchina, si hackera il suo cibo.)
Il cambio di prospettiva è decisivo: la disinformazione classica puntava alle persone – emozioni, indignazione, clic. L’LLM-Grooming punta all’infrastruttura: crawler, indici, ranking, pipeline di addestramento. Ciò che ieri era un blog marginale oggi può essere un dato che rende “normale” una tesi in migliaia di risposte. E poiché gli LLM non sanno, ma formulano per probabilità, la “plausibilità” è il loro punto debole: se abbastanza testo sostiene che A sia B, “A-è-B” finisce per diventare un liscio «Molte fonti riportano…». È il sogno propagandistico: non convincere, ma normalizzare.
Come funziona – tecnicamente e praticamente?
Fase 1: produzione di contenuti massivi e AI-friendly
Non necessariamente buoni. Non necessariamente letti. Ma facilmente crawlable: template standardizzati, brevi snippet di news, liste FAQ, articoli «Che cos’è X?», formati Q&A. In aggiunta, varianti semantiche (per sembrare diversità), progettazione aggressiva di keyword e multilinguismo – perché ogni lacuna linguistica è una porta d’ingresso.
Fase 2: inondazione dell’ecosistema
La SEO qui non è uno strumento di marketing, ma un nastro trasportatore: linking interno, reti di backlink, mirror site, RSS scraper, keyword stuffing, cadenza quotidiana. VIGINUM descrive nel rapporto su «Portal Kombat» una struttura coordinata di almeno 193 “information portals” che diffondono contenuti pro-russi.[3] Il report «Pravda’s Web» (Center for the Study of Democracy) parla esplicitamente di manipolazione sistematica di motori di ricerca e LLM tramite reti automatizzate.[4]
E poiché oggi la credibilità spesso si “prende in prestito”, i link continuano a spostarsi: DFRLab mostra come domini Pravda possano comparire come fonti in riferimenti di Wikipedia, in dibattiti sulle Community Notes o nei dialoghi con sistemi di IA.[5] Strategicamente è intelligente: non serve convincere ogni piattaforma – basta essere citati in un numero sufficiente di punti perché gli algoritmi calcolino la rilevanza.
Fase 3: assorbimento negli LLM (addestramento o generazione delle risposte)
Primo: dati di addestramento – la massa funziona come un regolatore del volume. Secondo: sistemi di retrieval (RAG) in cui i chatbot cercano dal vivo e assemblano risposte dai testi trovati. Se la lista dei risultati è avvelenata, lo è anche la risposta – senza che il modello di base sia stato “riaddestrato”.
NewsGuard riporta nel 2025 che strumenti di IA generativa di primo piano hanno ripetuto falsi narrative Pravda in circa un terzo delle risposte testate, talvolta citandole come fonte.[6] Inoltre, l’ecosistema Pravda è descritto come una rete di circa 150 siti che nel 2024 ha pubblicato oltre 3,6 milioni di articoli – più algoritmo che pubblico.[7] In breve: sovra-offerta informativa come arma.
Perché è un problema critico?
Scalabilità tra generazioni
Il grooming non mira a un singolo post, ma a famiglie di modelli. Se schemi avvelenati entrano nelle pipeline dati o negli indici di retrieval, l’effetto si riproduce ad ogni aggiornamento. Una volta dentro, torna sempre – e ogni volta con grammatica migliore.
Opacità
L’utente vede una risposta elegante e confonde stile e verità. Se il risultato proviene da fonti solide o da un “Data Void” – una lacuna in cui dominano fonti scadenti – raramente lo si capisce. Proprio per questo la ricerca non è monolitica: Alyukov et al. trovano, in un’analisi di chatbot popolari, “little evidence” di grooming sistematico; alcuni rimandi problematici si spiegherebbero piuttosto con lacune informative che con manipolazione intenzionale.[8] È un promemoria importante: non ogni output falso è automaticamente un’operazione. Ma ogni lacuna informativa è un fianco scoperto – e quindi un varco per le operazioni.
Uso strategico
VIGINUM colloca reti di questo tipo come parte della manipolazione informativa di matrice estera.[9] Se i chatbot diventano infrastruttura dell’orientamento politico, “quale fonte vince” non è un dettaglio, ma potere. Di conseguenza, analisi discutono l’inondazione del web con propaganda come tentativo di “corrompere” i chatbot – spesso con riferimento a reti russe.[10][11] Il vantaggio strategico è evidente: economico, scalabile, difficile da dimostrare – e per gli utenti quasi invisibile.
Critico, sì. Allarmistico, no. Ma non dovremmo abituarci all’idea che la quantità passi per qualità – né per le persone, né per i modelli.
Chiusura e riflessione
Che fare? Primo: trasparenza sull’origine dei dati – corpora auditabili, segnali di provenienza, documentazione di ciò che viene escluso (e perché). Secondo: filtri di retrieval più robusti, che non premiano la SEO ma la qualità delle fonti; più avvisi chiari quando il sistema pesca in un Data Void. Terzo: contrappesi dove mancano: contenuti affidabili in lingue e ambiti sotto-coperti non sono un lusso, ma una misura di sicurezza. Quarto: una nuova forma di competenza mediatica – non «Non credere al bot», bensì: verifica il percorso con cui arriva alla sua risposta.
E noi utenti? Trattiamo i chatbot come conoscenti molto eloquenti: utili, impressionanti, talvolta spietatamente sicuri di sé. Ma non automaticamente corretti. Fare domande. Controllare altrove. Aprire i link, invece di limitarsi ad apprezzare il riassunto.
Perché, alla fine, la domanda non è se l’IA “menta”. Ma: chi le cucina la conoscenza – e chi controlla se nella pentola c’è già del veleno?
(Orientamento stilistico basato sul Kienzl-Raster dell’analisi allegata.)[12]
Der Kreiser in pastiche di Alexandra Kienzl
Testo sperimentale di scrittura automatica ispirato allo stile dell’autore citato, che non è coinvolto nei contenuti.La forma è presa in prestito. La sostanza, no.
Glossario breve
- LLM (Large Language Model): Modello linguistico che genera testi calcolando sequenze di parole statisticamente probabili, non “verificando la verità”.
- LLM-grooming: Influenzamento a lungo termine dei modelli linguistici attraverso l’immissione deliberata di contenuti distorti o falsi nell’ambiente informativo pubblico, in modo da “nutrire” i modelli.
- (Training-)dati / dati di addestramento: Insiemi di testi con cui un modello apprende durante lo sviluppo; ciò che ricorre spesso tende a riemergere più facilmente nelle risposte.
- Data poisoning: “Avvelenamento” intenzionale dei dati per orientare in modo sistematico un modello o un sistema in una direzione desiderata.
- Crawler: Programmi automatici che scandagliano il web e raccolgono contenuti per indici o dataset.
- Indice / ranking: Struttura e ordine con cui i sistemi di ricerca rendono i contenuti reperibili e li prioritizzano.
- Retrieval / RAG (Retrieval-Augmented Generation): Metodo in cui il modello prima recupera fonti (retrieval) e poi formula una risposta basandosi su ciò che ha trovato.
- SEO (Search Engine Optimization): Tecniche per aumentare la visibilità dei contenuti nei motori di ricerca; nel grooming diventa una leva per dominare le liste di risultati “viste” dalle macchine.
- Keyword stuffing: Inserimento eccessivo di parole chiave per apparire più “rilevanti” nelle ricerche.
- Content farming: Produzione massiva di testi molto simili (spesso automatizzata), pensata soprattutto per indicizzazione/visibilità più che per lettori umani.
Quellen
- Danet, Didier (2025). LLM Grooming: A New Cognitive Threat to Generative AI (SSRN). https://papers.ssrn.com/sol3/papers.cfm?abstract_id=5461315
- IBM. What Is Data Poisoning? https://www.ibm.com/think/topics/data-poisoning
- VIGINUM (12.02.2024). PORTAL KOMBAT: A structured and coordinated pro-Russian propaganda network (Technical report, PDF). https://www.sgdsn.gouv.fr/files/files/20240212_NP_SGDSN_VIGINUM_PORTAL-KOMBAT-NETWORK_ENG_VF.pdf
- Center for the Study of Democracy (2025). Pravda’s Web: Systemic Manipulation of Search Engines and LLMs via Automated Networks (PDF). https://csd.eu/fileadmin/user_upload/publications_library/files/2025_05/Pravda_s_Web.pdf
- DFRLab (12.03.2025). Russia-linked Pravda network cited on Wikipedia, LLMs, and X. https://dfrlab.org/2025/03/12/pravda-network-wikipedia-llm-x/
- NewsGuard (06.03.2025). A Well-funded Moscow-based Global “News” Network has Infected Western Artificial Intelligence with Russian Propaganda. https://www.newsguardtech.com/special-reports/moscow-based-global-news-network-infected-western-artificial-intelligence-russian-propaganda
- Alliance for Securing Democracy / GMF. Russia exploits AI training data to spread propaganda via chatbots. https://securingdemocracy.gmfus.org/incident/russia-exploits-ai-training-data-to-spread-propaganda-via-chatbots/
- Alyukov, M.; Makhortykh, M.; Voronovici, A.; Sydorova, M. (2025). LLMs grooming or data voids? LLM-powered chatbot references to Kremlin disinformation reflect information gaps, not manipulation. Harvard Kennedy School Misinformation Review. https://misinforeview.hks.harvard.edu/article/llms-grooming-or-data-voids-llm-powered-chatbot-references-to-kremlin-disinformation-reflect-information-gaps-not-manipulation/
- France Diplomatie (15.02.2024). Foreign digital interference – Result of investigations into the Russian “Portal Kombat” propaganda network. https://www.diplomatie.gouv.fr/en/french-foreign-policy/security-disarmament-and-non-proliferation/news/2024/article/foreign-digital-interference-result-of-investigations-into-the-russian
- Institute for Strategic Dialogue (27.10.2025). Talking Points: When chatbots surface Russian state media. https://www.isdglobal.org/digital_dispatches/talking-points-when-chatbots-surface-russian-state-media/
- Resilience Media (12.04.2025). When Propaganda Trains the Bots: Why You Should Read About LLM Grooming. https://www.resiliencemedia.co/p/when-propaganda-trains-the-bots-why
- Analyseschablone „Kienzl-Raster“ (Dokument in den beigefügten Unterlagen).
PROMPT
Traduci in italiano il testo fornito mantenendo lo stile (anche nella traduzione) della autrice Alexandra Kienzl.