Stratégie Bloom
But et originalité
- Réduire les coûts d'apprentissage en:
- Repartant d'un modèle existant (c'est toujours ça en moins à entraîner)
- Continuant l'apprentissage avec peu de données
- Apporter de nouvelles contributions à la communauté sur les questions encore non résolues:
- Quelles méthodes de compression/de ré-initialisation permettent de faire un continual learning efficace ?
- Quelles sont les scaling laws du continual learning ?
Approche envisagée
Repartir de Bloom-176b, le compresser en 30b voire 15b, puis continuer l'apprentissage.
Pourquoi cette approche ?
Lorsqu'on entraîne un LLM from scratch, il y a au moins deux avantages:
- on part de paramètres aléatoires, ce qui permet de trouver plus facilement un bon minimum du loss
- on shuffle le dataset complet, ce qui permet d'apprendre "toutes" les connaissances
Si on veut continuer l'apprentissage, on part d'une loss qui est déjà au fond d'une vallée. Les risques sont:
- soit on reste dans la vallée, mais on n'apprendra pas les nouvelles données
- soit on ressort de la vallée pour en trouver une autre, mais on oubliera les connaissances anciennes
On observe cela par exemple dans le papier ShearedLlama: lorsqu'ils continuent l'apprentissage du modèle INCITE-3b, l'accuracy augmente très lentement. Ils montrent par contre que si on compresse un Llama-7b en 3b, alors on "sort" du fond de la vallée mais tout en restant dans une zone "connectée" aux autres vallées: on peut alors continuer l'apprentissage sur les nouvelles données, et la courbe d'accuracy augmente beaucoup plus vite: 50b de tokens suffisent pour dépasser les LLM-3b entraînés sur 1T de tokens. Cette idée d'initialiser l'apprentissage via la compression d'un gros modèle se retrouve aussi dans le papier plus ancien Lottery Ticket hypothesis, qui avait déjà observé ces bonnes propriétés.
Cette idée donne donc un espoir pour entraîner des LLM avec peu de données, mais il reste de nombreuses questions en suspens (quelles scaling laws peut-on espérer ? Quelles méthodes de compression sont les plus efficaces ?...) que nous nous proposons d'explorer.