Mi capita spesso di vedere i Large Language Models (LLMs) definiti come "algoritmi che predicono la parola successiva statisticamente più probabile".

Ma questa definizione, limitante ed incompleta, ignora una storia straordinaria di progresso tecnologico.

Ognuno ha in mente le sue pietre miliari per ripercorrere questa storia. Io vi voglio presentare le mie otto, senza alcuna pretesa di essere omnicomprensivo.

  1. Partiamo dal 1986, con l'introduzione della retro-propagazione, che ha reso possibile l'addestramento di reti neurali profonde. Questo lavoro pionieristico di Rumelhart, Hinton e Williams ha posto le basi per l'apprendimento moderno. ***[1] Rumelhart, D. E., Hinton, G. E., & Williams, R. J. (1986). Learning representations by back-propagating errors. Nature, 40.473 citazioni. https://www.cs.utoronto.ca/~hinton/absps/naturebp.pdf***
  2. Nel 1997, Yann LeCun e colleghi hanno sviluppato LeNet-5, una delle prime reti neurali convoluzionali (CNN), progettata per il riconoscimento di immagini scritte a mano. LeNet-5 ha dimostrato l'efficacia delle CNN in compiti di visione artificiale e ha aperto la strada alla loro applicazione su larga scala. ***[2] LeCun, Y., Bottou, L., Bengio, Y., & Haffner, P. (1998). Gradient-based learning applied to document recognition. Proceedings of the IEEE, 70.681 citazioni. http://vision.stanford.edu/cs598_spring07/papers/Lecun98.pdf***
  3. Lo stesso anno, un altro balzo in avanti: Hochreiter e Schmidhuber hanno presentato le LSTM (Long Short-Term Memory), una soluzione al problema del "vanishing gradient", permettendo alle reti neurali di ricordare informazioni utili per periodi più lunghi. ***[3] Hochreiter, S., & Schmidhuber, J. (1997). Long short-term memory. Neural Computation, 63.022 citazioni. https://www.bioinf.jku.at/publications/older/2604.pdf***
  4. Ma mancava qualcosa. Le reti neurali apprendevano in maniera molto lenta. Nel 2012, AlexNet ha cambiato le carte in tavola. Questa rete profonda, vincitrice dell'ImageNet Challenge, ha dimostrato come l'uso intensivo delle GPU di NVIDIA potesse accelerare enormemente l'addestramento e sbloccare nuove possibilità nel deep learning. ***[4] Krizhevsky, A., Sutskever, I., & Hinton, G. E. (2012). ImageNet Classification with Deep Convolutional Neural Networks. NeurIPS, 52.635 citazioni. https://proceedings.neurips.cc/paper_files/paper/2012/file/c399862d3b9d6b76c8436e924a68c45b-Paper.pdf***
  5. Nel 2013 la crescente disponibilità di dati e potenza computazionale ha portato a progressi come Word2Vec di Mikolov et al., che ha permesso di rappresentare parole come vettori numerici, catturando relazioni semantiche in modi mai visti prima. ***[5] Mikolov, T., Chen, K., Corrado, G., & Dean, J. (2013). Efficient estimation of word representations in vector space. arXiv preprint arXiv:1301.3781, 15.298 citazioni.https://arxiv.org/abs/1301.3781***
  6. Nel 2014, Sutskever et al. hanno presentato il modello Sequence to Sequence per il miglioramento della traduzione automatica, usando LSTM per mappare sequenze di input in sequenze di output. ***[6] Sutskever, I., Vinyals, O., & Le, Q. V. (2014). Sequence to Sequence Learning with Neural Networks. NeurIPS, 20.140 citazioni.https://papers.nips.cc/paper_files/paper/2014/hash/a14ac55a4f27472c5d894ec1c3c743d2-Abstract.html***
  7. Poi, nel 2017, la rivoluzione. Con il paper "Attention Is All You Need", i Transformer sono entrati in scena. Questo approccio ha trasformato il modo in cui i modelli gestiscono il contesto, aprendo la strada a sistemi scalabili e potenti. [7] Vaswani, A., Shazeer, N., Parmar, N., Uszkoreit, J., Jones, L., Gomez, A. A., Kaiser, Ł., & Polosukhin, I. (2017). Attention Is All You Need. NeurIPS, 35.209 citazioni →https://arxiv.org/abs/1706.03762
  8. Infine, nel 2020, GPT-3 ha dimostrato cosa significa lavorare con 175 miliardi di parametri, ridefinendo ciò che possiamo aspettarci dall'intelligenza artificiale conversazionale e oltre. ***[8] Brown, T., Mann, B., Ryder, N., Subbiah, M., Kaplan, J., Dhariwal, P., Shinn, N., & others (2020). Language Models are Few-Shot Learners. NeurIPS, 10.165 citazioni → https://aclanthology.org/2021.mrl-1.1.pdf***

Oggi, GPT-4 e altri LLM non sono semplici predittori statistici. Sono modelli che apprendono dai dati per generalizzare su una vasta gamma di compiti.

E, sorprendentemente, nemmeno chi li ha costruiti può prevedere esattamente come raggiungono certi risultati.

Quando mi trovo a discutere con qualcuno che assimila un LLM ad un next word predictor vengo sempre colto dalla spiacevole sensazione di star parlando con un esperto di AI dell'ultima ora, che ignora o conosce poco tutto quello che è successo negli ultimi 40 anni.

1734346278899.jpeg


Iacopo Cricelli's AI Blog © 2024 by Iacopo Cricelli is licensed under CC BY-SA 4.0