Edito
Les activités de la communauté autour des LLM concernent principalement comment les utiliser, les déployer et les adapter aux divers cas d'usages qui intéressent surtout les startup et entreprises. Dans ce cadre, les questions qui reviennent le plus souvent sont la réduction des coûts d'utilisation et d'apprentissage des LLM, que ce soit en les quantisant, distribuant ou distillant, autant de domaines où des progrès de transfert remarquables ont été réalisés récemment, comme l'illustrent par exemple le Neurips LLM challenge 2023 pour la réduction des coûts d'apprentissage, le LangChain toolkit pour utiliser ces LLM dans de nombreux cas d'applications concrets, ou llama.cpp pour exécuter ces LLM sur des ordinateurs grand public.
Parallèlement, de nombreuses questions fondamentales restent ouvertes, sur la compréhension et la formalisation des propriétés des LLM (quelles sont les propriétés géométriques de leurs espaces d'apprentissage ? comment améliorer les scaling laws ? quelles propriétés émergent à quelle taille des LLM ? etc.). Ces questions intéressent principalement les acteurs académiques et les acteurs mondiaux en IA. De "nouvelles" pistes de recherche intermédiaires entre ces deux positions sont également largement visibles aujourd'hui, notamment autour de la multimodalité.
LLM4All est un projet qui s'intéresse à la fois à des aspects appliqués, notamment la réduction des coûts d'apprentissage, et à des questions plus orientées recherche fondamentale, en particulier la prévention du catastrophic forgetting. Deux domaines d'application serviront de démonstrateurs au projet avec également un aspect multimodal parole et texte: le traitement des réunions de travail et des appels aux urgence hospitalière.
Dans LLM4All, nous avons la chance de pouvoir accéder à de grandes puissances de calcul via notamment le cluster Jean Zay du GENCI, et donc de pouvoir travailler sur de gros LLM, dépassant les 100 milliards de paramètres. Notre ambition est de contribuer à ce niveau d'excellence et pour des modèles "fondation" notamment sur les questions fondamentales de recherche sus-citées, mais nous voulons également concrétiser ces résultats sur de plus petits modèles, plus facilement exploitables par un plus grand nombre d'acteurs sur des cas d'usage concrets.