Un gruppo di ricerca del laboratorio NeTS ha partecipato quest'anno alla competizione internazionale BabyLM Challenge (https://babylm.github.io/), un'importante sfida internazionale dedicata all’allenamento di modelli linguistici di piccole dimensioni.
Contrariamente ai very Large Language Models (vLLM, come i noti modelli GPT), implausibili dal punto di vista cognitivo e linguistico, gli Small Language Models (SLM) tentano di simulare l'apprendimento linguistico nel bambino utilizzando dati paragonabili all'input primario a disposizione di ogni apprendente: pochi milioni di parole, anziché migliaia di miliardi di parole. Per avere un'idea quantitativa, si stima che un adulto per leggere a bassa voce l'intero corpus con cui è stato allenato il modello GPT-3 impiegherebbe circa 2.500 anni di lettura non-stop (considerando un ritmo medio di lettura di circa 238 parole al minuto, Brysbaert 2019). Il bambino, invece, raggiunge una competenza linguistica adulta ricevendo in input non più di 10-100 milioni di parole nei primi dieci anni di vita (Hart & Risley 1992).
Il gruppo NeTS, diretto dal Prof. Cristiano Chesi, associato di glottologia e linguistica presso la Scuola Universitaria Superiore IUSS di Pavia e formato dalle assegniste Matilde Barbini e Maria Letizia Piccini Bianchessi e dai dottorandi Veronica Bressan, Achille Fusco, Sofia Neri, Sarah Rossi e Tommaso Sgrizzi ha testato un originale metodo di segmentazione delle parole (tokenizzazione) chiamato MorPiece, che consente di ottenere morfemi linguisticamente più plausibili. Questo approccio, presentato durante il convegno CLIC-IT 2024 a Pisa (Fusco et al 2024), si distingue rispetto ai metodi standard come BPE e WordPiece, in quanto restituisce elaborazioni delle parole più in linea con le intuizioni linguistiche dei parlanti.
Il team ha anche esplorato un approccio "minimalista" per rendere più efficaci le reti neurali ricorrenti, su cui si basano i moderni modelli di Intelligenza Artificiale. In particolare, le classiche reti ricorrenti LSTM (Hochreiter & Schmidhuber, 1997) sono state modificate per indurre delle "preferenze linguistiche" (bias) durante l'apprendimento.
Sebbene i risultati dell'apprendimento e delle valutazioni linguistiche a posteriori siano buoni e migliori dei modelli standard (test BLiMP per l'Inglese, Warstadt et al. 2020 e COnVERSA per l'Italiano, Chesi et al. 2024b), il lavoro mostra come fornendo alla rete dati "come li avrebbe visti un bambino" (cioè, una sola frase per volta), il modello apprende solo alcune dipendenze complesse ma non non altre.
Da un lato, il risultato suggerisce come l'argomento della "povertà dello stimolo" (Chomsky 1986) resti tuttora non falsificato, dall'altro, come i progressi fatti alterando il flusso di informazione all'interno delle reti ricorrenti (attraverso un sistema di porte predisposte ad hoc per simulare bias linguistici) possa produrre interessanti preferenze strutturali che lasciano presupporre un margine di miglioramento nella performance di questi SLM (Chesi et al. 2024a).
Riferimenti
Brysbaert, M. (2019). How many words do we read per minute? A review and meta-analysis of reading rate. Journal of Memory and Language, 109, 104047, doi: 10.1016/j.jml.2019.104047
Chesi, C., Barbini, M., Bressan, V., Neri, S., Piccini Bianchessi, M. L., Sarah, R., & Sgrizzi, T. (2024a). Different Ways to Forget: Linguistic Gates in Recurrent Neural Networks. Proceedings of the BabyLM Challenge at the 28th Conference on Computational Natural Language Learning. Miami (FL)
Chesi, C., G. Ghersi, V. Musella, and D. Musola (2024b). COnVERSA: Test di Comprensione delle Opposizioni morfo-sintattiche VERbali attraverso la ScritturA. Firenze: Hogrefe.
Chomsky, N. (1986). Knowledge of language: Its nature, origin, and use. Praeger.
Fusco, A., M. Barbini, M. L. Piccini Bianchessi, V. Bressan, S. Neri, S. Rossi, T. Sgrizzi, C. Chesi (2024) Recurrent Networks Are (Linguistically) Better? An (Ongoing) Experiment on Small-LM Training on Child-Directed Speech in Italian. In Proceedings of the Tenth Italian Conference on Computational Linguistics (CLiC-it 2024)
Hart, B. and T. R., Risley (1992) American parenting of language-learning children: Persisting differences in family-child interactions observed in natural home environments., Developmental Psychology, 28(6):1096–1105, doi: 10.1037/0012-1649.28.6.1096.
Warstadt, A., Parrish, A., Liu, H., Mohananey, A., Peng, W., Wang, S.-F., and Bowman, S. R. (2020). BLiMP: The Benchmark of Linguistic Minimal Pairs for English. Transactions of the Association for Computational Linguistics, 8:377–392
Hochreiter, S., Schmidhuber, J. (1997). Long short-term memory. Neural Computation. 9 (8): 1735–1780. doi:10.1162/neco.1997.9.8.1735.