Israele ha sviluppato un potente modello di intelligenza artificiale per lo spionaggio

Un’indagine del Guardian ha rivelato che l’agenzia di sorveglianza militare israeliana ha utilizzato una vasta raccolta di comunicazioni palestinesi intercettate per sviluppare un potente strumento di intelligenza artificiale, simile a ChatGPT, con l’obiettivo di trasformare le sue capacità di spionaggio.

L’indagine congiunta con la pubblicazione israelo-palestinese +972 Magazine e il media in lingua ebraica Local Call ha scoperto che l’Unità 8200 ha addestrato il modello AI a comprendere l’arabo parlato utilizzando enormi volumi di conversazioni telefoniche e messaggi di testo ottenuti attraverso la sua sorveglianza capillare nei territori occupati.

Secondo fonti a conoscenza del progetto, l’unità ha iniziato a sviluppare il modello per creare uno strumento avanzato, simile a un chatbot, in grado di rispondere a domande sulle persone monitorate e di fornire approfondimenti sull’enorme mole di dati raccolti.

L’Unità 8200, un’agenzia d’élite specializzata nelle intercettazioni e paragonabile per capacità alla National Security Agency (NSA) statunitense, ha accelerato lo sviluppo del sistema dopo l’inizio della guerra a Gaza nell’ottobre 2023. Il modello era ancora in fase di addestramento nella seconda metà dello scorso anno, e non è chiaro se sia già stato operativo.

L’esistenza del progetto è stata parzialmente rivelata in una conferenza pubblica da un ex tecnologo dell’intelligence militare, Chaked Roger Joseph Sayedoff, che ha affermato di aver supervisionato il progetto.

“Abbiamo cercato di creare il più grande dataset possibile, raccogliendo tutti i dati in arabo che lo Stato di Israele ha mai avuto,” ha dichiarato Sayedoff durante un intervento a una conferenza militare sull’AI a Tel Aviv. Il modello, ha aggiunto, ha richiesto una quantità “psicotica” di dati.

Tre ex funzionari dell’intelligence hanno confermato l’esistenza del modello e fornito dettagli sulla sua costruzione. Diverse altre fonti hanno descritto come l’Unità 8200 abbia utilizzato in passato modelli di machine learning su scala più ridotta prima di lanciare questo ambizioso progetto.

“L’AI amplifica il potere,” ha detto una fonte vicina allo sviluppo dei modelli dell’Unità 8200. “Non si tratta solo di prevenire attacchi armati. Posso tracciare attivisti per i diritti umani, monitorare le costruzioni palestinesi nell’Area C [della Cisgiordania]. Ho più strumenti per sapere cosa fa ogni persona in Cisgiordania.”

Sorveglianza su larga scala e rischi dell’AI

I dettagli sulla portata del nuovo modello mettono in luce la capacità dell’Unità 8200 di conservare enormi quantità di contenuti delle comunicazioni intercettate, possibile grazie a una sorveglianza pervasiva delle telecomunicazioni palestinesi.

Il progetto evidenzia anche come l’Unità 8200, al pari di molte agenzie di spionaggio nel mondo, stia cercando di sfruttare i progressi dell’intelligenza artificiale per svolgere analisi complesse e gestire enormi volumi di dati che superano la capacità di elaborazione umana.

Tuttavia, l’integrazione di modelli di linguaggio AI nell’analisi dell’intelligence comporta rischi, poiché questi sistemi possono amplificare pregiudizi esistenti ed essere soggetti a errori, hanno avvertito esperti e attivisti per i diritti umani. La loro natura opaca rende inoltre difficile comprendere come siano state raggiunte determinate conclusioni.

Zach Campbell, ricercatore senior di Human Rights Watch (HRW) nel settore della sorveglianza, ha espresso preoccupazione per l’uso dei modelli AI da parte dell’Unità 8200 per prendere decisioni che influenzano la vita dei palestinesi sotto occupazione militare. “È una macchina che fa supposizioni,” ha detto. “E alla fine queste supposizioni potrebbero essere usate per incriminare persone.”

Un portavoce dell’IDF (Forze di Difesa Israeliane) ha rifiutato di rispondere alle domande del Guardian sul nuovo modello AI, ma ha dichiarato che l’esercito “impiega vari metodi di intelligence per identificare e sventare attività terroristiche di organizzazioni ostili in Medio Oriente.”

Un’enorme raccolta di comunicazioni in arabo

Negli ultimi anni, l’Unità 8200 ha sviluppato diversi strumenti basati sull’intelligenza artificiale. Sistemi come The Gospel e Lavender sono stati rapidamente integrati nelle operazioni di combattimento nella guerra a Gaza, svolgendo un ruolo significativo nei bombardamenti dell’IDF, aiutando a identificare potenziali obiettivi (sia persone che strutture) per attacchi letali.

Da quasi un decennio, l’Unità 8200 utilizza l’AI per analizzare le comunicazioni intercettate, impiegando modelli di machine learning per classificare informazioni, riconoscere schemi e fare previsioni.

Dopo il rilascio di ChatGPT da parte di OpenAI alla fine del 2022, gli esperti di AI dell’Unità 8200 hanno immaginato di costruire uno strumento altrettanto sofisticato. Tuttavia, inizialmente hanno incontrato difficoltà nello sviluppare un modello su questa scala. “Non avevamo idea di come addestrare un modello di fondazione,” ha ammesso Sayedoff nella sua presentazione.

A un certo punto, l’unità ha persino tentato, senza successo, di ottenere l’autorizzazione da OpenAI per eseguire ChatGPT su sistemi militari sicuri (OpenAI ha rifiutato di commentare).

Dopo gli attacchi del 7 ottobre, che hanno portato alla mobilitazione di centinaia di migliaia di riservisti dell’IDF, un gruppo di ufficiali esperti nella costruzione di modelli di linguaggio ha fatto ritorno nell’Unità 8200 dal settore privato. Alcuni di loro provenivano da grandi aziende tecnologiche statunitensi come Google, Meta e Microsoft. (Google ha dichiarato che il lavoro dei suoi dipendenti come riservisti “non è collegato” all’azienda. Meta e Microsoft hanno rifiutato di commentare).

Il piccolo team di esperti ha presto iniziato a costruire un modello AI in grado di comprendere l’arabo parlato, ma ha dovuto ricominciare da zero dopo aver scoperto che i modelli linguistici esistenti, sia commerciali che open-source, erano stati addestrati solo sull’arabo standard scritto, usato in comunicazioni formali, letteratura e media, e non sulle varianti parlate.

“Non esistono trascrizioni di chiamate o conversazioni su WhatsApp disponibili su internet nella quantità necessaria per addestrare un modello del genere,” ha detto una fonte. La sfida, ha aggiunto, era “raccogliere tutti i testi in arabo parlato che l’unità aveva mai ottenuto e centralizzarli in un unico luogo.” Il dataset finale utilizzato per l’addestramento del modello comprendeva circa 100 miliardi di parole.

Una fonte ben informata sul progetto ha detto al Guardian che questa enorme raccolta di comunicazioni includeva conversazioni in dialetti libanesi e palestinesi. Durante la sua presentazione, Sayedoff ha dichiarato che il team si è concentrato “solo sui dialetti che ci odiano.”

Argomenti: israele