Skip to main content
Immagine
NeTs_Baby_LM_2024
Baby Language Models: l'intelligenza artificiale che cresce come un bambino
Data
Mon, 02/12/2024
Paragrafo
Testo

Un nutrito gruppo di ricerca del laboratorio NeTS ha partecipato quest'anno alla competizione internazionale BabyLM Challenge (https://babylm.github.io/),  un'importante competizione internazionale dedicata all’allenamento di modelli linguistici “baby-sized”. L'obiettivo della competizione era quello di allenare modelli linguistici performanti ma di "piccole dimensioni". 

Contrariamente ai very Large Language Models (vLLM, come i noti modelli GPT), implausibili dal punto di vista cognitivo e linguistico, gli Small Language Models (SLM) tentano di simulare l'apprendimento linguistico nel bambino utilizzando dati paragonabili all'input primario a disposizione di ogni apprendente: pochi milioni di parole, anziché migliaia di miliardi di parole. Per avere un'idea quantitativa, si stima che un adulto per leggere a bassa voce l'intero corpus con cui è stato allenato il modello GPT-3 impiegherebbe circa 2.500 anni di lettura non-stop (considerando un ritmo medio di lettura di circa 238 parole al minuto, Brysbaert 2019). Il bambino, invece, raggiunge una competenza linguistica adulta ricevendo in input non più di 10-100 milioni di parole nei primi dieci anni di vita (Hart & Risley 1992).

Il gruppo NeTS, diretto dal Prof. Cristiano Chesi, associato di glottologia e linguistica presso la Scuola Universitaria Superiore IUSS di Pavia e formato dalle assegniste Matilde Barbini e Maria Letizia Piccini Bianchessi e dai dottorandi Veronica Bressan, Achille Fusco, Sofia Neri, Sarah Rossi e Tommaso Sgrizzi ha testato un originale un metodo innovativo di analisi linguistica chiamato MorPiece, che consente di scomporre le parole in modo più vicino alle regole della morfologia, cioè la struttura delle parole stesse. Questo approccio, presentato durante il convegno CLIC-IT 2024 a Pisa, si distingue rispetto ai metodi standard come BPE e WordPiece, in quanto restituisce elaborazioni delle parole più in linea con le intuizioni linguistiche morfologiche rispetto ai metodi standard (BPE e WordPiece). 

Il team ha anche esplorato un approccio "minimalista" per rendere più efficaci le reti neurali ricorrenti, un particolare tipo di modello di intelligenza artificiale. Hanno modificato le classiche reti LSTM (Hochreiter & Schmidhuber, 1997), introducendo delle "preferenze linguistiche" (bias), cioè schemi che aiutano la rete a comprendere meglio il linguaggio durante il processo di apprendimento.

Sebbene i risultati dell'apprendimento e delle valutazioni linguistiche a posteriori siano buoni e migliori dei modelli standard (test BLiMP per l'Inglese, Warstadt et al. 2020 e COnVERSA per l'Italiano, Chesi et al. 2024b), il lavoro mostra come fornendo alle rete dati "come li avrebbe visti un bambino" (cioè, una sola frase per volta), la rete apprende solo alcune dipendenze complesse ma non non altre. 

Da una parte, i risultati confermano che l'idea della "povertà dello stimolo" di Chomsky (1986) rimane valida, cioè che i bambini imparano il linguaggio con input limitati. Dall'altra, le modifiche apportate alle reti neurali hanno generato interessanti predisposizioni linguistiche, suggerendo che ci sia ancora spazio per migliorare le prestazioni di questi modelli più piccoli.un margine di miglioramento nella performance di questi SLM (Chesi et al. 2024a).

Riferimenti

Brysbaert, M. (2019). How many words do we read per minute? A review and meta-analysis of reading rate. Journal of Memory and Language, 109, 104047. https://doi.org/10.1016/j.jml.2019.104047

Chesi, C., Barbini, M., Bressan, V., Neri, S., Piccini Bianchessi, M. L., Sarah, R., & Sgrizzi, T. (2024a). Different Ways to Forget: Linguistic Gates in Recurrent Neural Networks. Proceedings of the BabyLM Challenge at the 28th Conference on Computational Natural Language Learning. Miami (FL)

Chesi, C., G. Ghersi, V. Musella, and D. Musola (2024b). COnVERSA: Test di Comprensione delle Opposizioni morfo-sintattiche VERbali attraverso la ScritturA. Firenze: Hogrefe. 

Chomsky, N. (1986). Knowledge of language: Its nature, origin, and use. Praeger.

Hart, B. and T. R., Risley (1992) American parenting of language-learning children: Persisting differences in family-child interactions observed in natural home environments., Developmental Psychology, 28(6):1096–1105, doi: 10.1037/0012-1649.28.6.1096.

Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., and Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the Association for Computational Linguistics, 8:377–392

Hochreiter, S., Schmidhuber, J. (1997). Long short-term memory. Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735.