Immaginate di avere a disposizione, ben classificati, archiviati e ordinati, tutti i contenuti testuali mai prodotti in lingua italiana: testi, articoli di giornale, dizionari, glossari, libri, e chi più ne ha più ne metta. Un corpus impressionante, paradiso dei linguisti. È proprio la costruzione di una base dati di questo tipo l’obiettivo del progetto Linking Italian (LiITA), appena presentato a Pisa durante il decimo Congresso italiano di linguistica computazionale: un enorme archivio interoperabile della lingua italiana, una piattaforma unica e interoperabile in cui tutte le risorse possono “parlare” tra loro e agli scienziati. Con l’aiuto, naturalmente, dell’intelligenza artificiale, addestrata dai ricercatori del centro di ricerca Circse all’Università Cattolica del Sacro Cuore di Milano e dell’Università degli studi di Torino per scandagliare tutte le risorse e mettere ordine in questo archivio sconfinato. “LiITA”, ci racconta Eleonora Litta, una degli autori del lavoro, “è un progetto che migliora il panorama della linguistica perché connette risorse già esistenti e già analizzate ma che finora non erano mai state messe insieme e collegate”.
Non sono solo parole ma un “supervocabolario”
L’enorme quantità di dati linguistici archiviati nelle risorse sparse nel web, al momento, rimane a sé stante, il che limita la cosiddetta interoperabilità, cioè il poter analizzare e collegare le risorse stesse nel loro insieme. È qui che interviene LiITA, che si propone di strutturare una rete nella quale tutte le risorse esistenti e anche quelle che probabilmente nasceranno con altri progetti, i quali a loro volta potranno usufruire di questa base di conoscenza, potranno “dialogare” e trovare ulteriori connessioni. Il progetto italiano permette di effettuare una ricerca dinamica all’interno di questo “supervocabolario” perscopi di tipo lessicografico, letterario, o anche stilistico, interrogando per esempio il database sulle modalità dell’uso delle parole in contesti diversi e in vari autori. LiITA permette insomma di “vedere” la parola nel suo uso. “Siamo ancora all’inizio, per cui adesso pubblicando il “nucleo”: una lunga lista di parole, circa 94.000, che faranno da perno tra le varie risorse”, continua Litta. Sostanzialmente, a partire da un qualsiasi termine, come “palla”, “televisione” o “informatico” si potrà interrogare LiITA e chiedere per esempio: “Mostrami quante di queste parole sono presenti negli articoli scritti oggi, nella letteratura italiana o nei testi di Manzoni”. Con la continua aggiunta di nuovo materiale, la base di dati si arricchisce e conseguentemente sarà possibile effettuare ricerche avanzate e ottenere risultati sempre più di qualità.
L’Ai al servizio della linguistica, la linguistica al servizio dell’Ai
Il “dialogo” tra linguistica e intelligenza artificiale funziona in entrambe le direzioni: i contenuti di LiITA potrebbero un giorno “nutrire” i modelli di linguaggio per renderli ancora più raffinati. “Al momento è ancora prematuro affermarlo”, continua Litta, “ma speriamo che che questa aggregazione di dati possa servire a creare una base di dati ancora più ampia: a quel punto, strumenti come ChatGPT potrebbero sfruttare i dati e i collegamenti tra le risorse di LiITA per migliorare la comprensione e l’analisi della lingua italiana. Ma siamo ancora lontani da questo punto”.
Dal latino all’italiano: una storia che si ripete
Il lavoro di LiITA è una specie di spin-off di Linking Latin (LiLA), un progetto creato per la costruzione di una Knowledge Base del latino che ha avuto talmente tanto successo che ha portato il team di ricerca a chiedere un finanziamento per la versione italiana. Con LiLA sono state raccolte risorse che includono il neolatino del Rinascimento, il latino utilizzato nei trattati scientifici e le encicliche papali di Papa Francesco, il tutto connesso in una base di dati. Con LiLA si è testato un modello che poi è stato adoperato per l’italiano: un dato molto positivo che ha permesso ai ricercatori italiani di capire come questo modello sarà facilmente riapplicabile anche all’inglese o ad altre lingue del mondo.
Sviluppi futuri
Tra i vari settori in cui adoperare LiITA, Litta si sofferma su un possibile utilizzo meno specialistico: “La mia speranza è che LiITA venga usato non solo dall’accademico ma anche dagli studenti e da tutti coloro che siano interessati a effettuare ricerche lessicografiche e letterarie. Mi piacerebbe che LiITA venisse utilizzato per vari livelli di interesse e professionalità”. Potrebbe essere, per esempio, uno strumento valido per i docenti che desiderano insegnare l’italiano con un approccio un po’ diverso, utilizzando le risorse disponibili online per mostrare la storia della lingua italiana e la sua continua evoluzione.
Immagine: DALL-E