ChatGPT vient de se faire détrôner par des génies français.
Introduction
Je vais vous présenter une entreprise créée par trois Français, un ancien chercheur de DeepM et deux qui étaient chez Ma. Cette entreprise, qui n'existait pas il y a à peine 8 mois, a eu le temps dans cet intervalle de faire trembler toute l'industrie de l'IA en publiant des modèles alternatifs à ChatGPT qui explosent toute la concurrence. Être valorisé à presque 2 milliards de dollars, le tout sans aucune communication ni vidéo promotionnelle déceptive. Ce que fait cette boîte me hype tellement que je vais quasiment tous les jours sur Twitter exclusivement pour vérifier qu'ils n'ont pas fait des nouvelles annonces, et c'est véridique, c'est vrai. Laissez-moi vous expliquer à quel point nos petits Français ont explosé le game et comment vous pourriez aussi en profiter.
Les meilleurs modèles d'IA concurrents à ChatGPT
Pour commencer, je vous propose de regarder un tableau des meilleures intelligences artificielles qui sont concurrentes à ChatGPT. Vous allez voir, il y a plein de trucs très intéressants dans ce tableau. Par exemple, on dirait que ChatGPT régresse entre plusieurs versions. Sinon, on peut voir qu'il y a aussi des scores qui sont incohérents, ils ne sont pas dans le bon ordre, c'est bizarre. Et surtout, il y a ces petites lignes jaunes : OpenHermes, Mistral, Mixtral, Instruct. Que des noms qui évoquent le vent. Finalement, elles ne paient pas de mine, on dirait même comme ça qu'elles ne sont pas si bien classées, mais ce serait passer à côté de la révolution qui se cache derrière.
Déjà, il faut réaliser qu'il y a pas mal de manières de mesurer la performance d'un modèle de langage. Mais pour faire court, c'est pas simple. Vraiment pas simple. Il y a des benchmarks qui sont en gros des listes de questions qu'on peut poser à un modèle de langage pour vérifier ses capacités. Donc là, par exemple, petite question de philosophie et il faut remplacer avec le bon terme. Le problème, c'est que c'est déjà arrivé que des modèles cartonnent en théorie avec des scores de fou, mais en fait, ça ne fonctionne pas dans la pratique. Ça arrive assez régulièrement. Par exemple, c'est potentiellement le cas des modèles de Google, genre Gini. On dirait que en fait, ils ont tout fait pour maximiser leur score de MMLU, qui est un benchmark très prisé et très regardé. Sauf que apparemment, quand tu l'utilises, c'est dur d'expliquer pourquoi, mais tu sens que c'est quand même moins bon que ChatGPT4.
Et ça peut parfois s'expliquer parce que l'interro a fuité, en gros dans le dataset d'entraînement, c'est comme si les réponses apparaissaient dans les centaines de gigas de texte que le modèle a appris. Même si les benchmarks peuvent être intéressants, on n'a pas trouvé mieux actuellement que le feeling des humains pour savoir si un modèle est vraiment bon. Et un des meilleurs benchmarks du coup, c'est la vie des gens et surtout est-ce que tel ou tel modèle est utilisé vraiment en entreprise ou pas.
Pour faire des classements, comment on fait ? Ben en fait, on peut faire un système de vote, c'est comme aux échecs, on peut faire un Elo, donc un système de points pour comparer des réponses différentes de modèles. Et en fait, on y revient à ce tableau, c'est l'un des classements de ce type les plus connus. Parce qu'on voit Arena, Hello, en réalité ça décrit toutes les batailles qui ont été effectuées sur une audience cible entre différentes réponses. Et là, faut vous dire qu'on voit vraiment le top du top, c'est que cette liste continue en dessous à l'infini. Même les petites lignes jaunes, on a l'impression qu'elles sont en bas, non non, c'est vraiment le podium du podium des tout meilleurs modèles dispo là au moment où on tourne cette émission. Qui ont été testés sur ce site en question qui est très populaire.
On peut voir que pour l'instant, les tout meilleurs modèles en haut, ils sont tous propriétaires. Donc, on reconnaît les GPT4 que tout le monde connaît évidemment. Ensuite, on peut voir Claude d'Entropique. On en a pas beaucoup parlé, mais ça a été monté par d'anciens salariés d'OpenAI. Puis quelques versions de GPT3.5, qui après des mises à jour successives reste en fait toujours très compétitif actuellement. Et plus bas, on aperçoit Google avec le G Mini Pro, leur nouveau modèle annoncé il y a 2 semaines à peine. Tout ça, c'est ce qui est propriétaire.
Pour ce qui nous intéresse le plus, nous, il y a les modèles ouverts. Ils sont en général plus petits, on va expliquer ce que ça veut dire juste après. Ils demandent donc moins de puissance de calcul, on peut les télécharger gratuitement, les faire tourner en local et les réentraîner, ce qui est l'un des trucs les plus intéressants sur nos propres données pour les rendre vraiment très très forts.
Jusqu'à il y a quelques semaines, il y avait en gros qu'une seule alternative sérieuse à ChatGPT et ses variations, dont on avait déjà parlé. C'est Liama 2, plus précisément des versions améliorées, finetunées de Liama 2, le modèle de Facebook. Ils finissent d'optimiser au max du max le travail qu'a fait l'équipe de Facebook sur son modèle dit de fondation.
Mais il y a 2 mois exactement, il y a des petites lignes jaunes qui se sont ajoutées au tableau. Ça s'est passé comment ? Mistral, le compte Mistral qui n'était suivi alors par quasiment personne, a publié un tweet. Pour ceux qui ne savent pas ce que c'est, c'est un lien Magnet. Donc, c'est tout simplement un torrent qu'on peut télécharger avec un client BitTorrent, comme on téléchargerait un film piraté ou plein d'autres trucs open source. Il a publié ça, pas d'explication, rien, pas de contexte, pas de vidéo promo, pas de billet de blog, rien, juste ce lien.
Et quand on clique dessus, on découvre un modèle à 7 milliards de paramètres. Et là, il faut qu'on explique un truc très important, parce que je vous l'ai dit, on peut avoir l'impression que ces lignes jaunes, elles sont en bas du classement, mais en fait, c'est si tu ne prends pas en compte la taille des modèles. C'est comme en boxe, il y a différentes catégories. Il y a les poids lourds, il y a les moyens et il y a les poids légers. Et en fait, c'est pas du tout la même chose de se battre avec des modèles qui font 200 milliards de paramètres ou avec des modèles qui font 70 milliards ou 7 milliards. Ce nombre de milliards décrit en fait la taille des poids. Donc, concrètement, c'est l'énorme fichier qui contient le réseau neuronal qui permet de faire les inférences, donc de créer les messages, d'écrire sous vos yeux les tokens. Et donc, plus un modèle est gros, plus il demande de la puissance de calcul, d'avoir des serveurs gigantesques avec des cartes graphiques de Nvidia qui coûtent 25 000 € pièces, qu'on cumule pour à la fin arriver à héberger des modèles qui vont faire du coup, bah 100 Go par exemple, ou 200 Go, souvent on ne sait pas exactement.
En plus, quelles sont la taille des modèles propriétaires ? À une époque, on pensait que les GPT3 et compagnie faisaient à peu près 130 milliards de paramètres, si je ne dis pas de bêtises. GPT4, c'est sûr que c'est énorme, autant dire que héberger ça vous-même sur vos appareils, c'est mort. Dites-vous que c'est juste mort. C'est pour ça que sont apparus des modèles plus petits. Par exemple, Liama, quand ils sont sortis, leurs modèles, ils les ont sortis souvent en trois versions, voire quatre. Il y a le plus gros, il fait 70 milliards de paramètres. Ça, pour vous donner un ordre d'idée, c'est le plus proche de ce qu'on a qui ressemble à une taille de modèle d'OpenAI ou d'Entropique. Et ça, bah pour le faire tourner, il faut en gros minimum deux cartes graphiques des 4080 Ti actuellement. C'était un des moyens d'avoir des modèles quasiment équivalents à GPT3.5. Donc, c'était déjà cool. Ils ont sorti également des modèles de 30 milliards de paramètres, de 13 milliards de paramètres et de 7 milliards de paramètres. Et vous pouvez vous dire, à quoi ça sert ? Pourquoi ils ne mettent pas plutôt toute leur énergie, tout leur argent à entraîner un unique modèle qui soit plus fort que tous les autres ? Et ben en gros, c'est un intérêt parce que différents modèles, donc différentes tailles de modèles, sont utiles pour différents trucs. Tu peux avoir besoin d'un très très gros modèle, donc d'une très bonne compréhension, d'une très grande culture générale, pour effectuer certaines actions en faisant des compromis sur le coût par mot, le coût par token et le fait d'avoir de très grosses infrastructures.
Mais parfois, tu peux avoir des besoins plus restreints que tu es prêt à échanger contre des performances. Donc, par exemple, si tu veux faire tourner un modèle sur ton Mac Mini qui a 16 Go de RAM, et ben tu es très content en fait qu'il y ait des modèles 13 milliards ou 7 milliards. Mais pendant très très longtemps, avec un modèle de 7 milliards de paramètres, tu faisais quasiment rien. Pour faire des résumés, ça peut marcher un petit peu, ou pour essayer de trouver des synonymes à un mot. Des choses qui jouent avec le langage, mais à un bas niveau, on va dire. C'est un élève de CM2, tu peux dire ça. Mistral, c'est un modèle de 7 milliards de paramètres, c'est le plus petit qu'on est qu'on voit être publié. Il est dans le top 10. Sauf que en fait, il est complètement dingue. Quand ils l'ont sorti, les gens, ils croyaient à moitié tu vois, tu on pensait qu'il y avait des bugs quand on voyait les benchmarks. On s'est dit, non mais c'est pas possible ce que ce que je vous explique, ils l'ont entraîné sur des benchmarks ça n'a pas de sens. On devrait pas pouvoir obtenir ce genre de résultat avec un modèle qui tient dans un fichier de 5 Go. Ça n'a pas de sens, mais en fait si. Que leur modèle de 7 milliards, surtout quand il a été fanionné, c'est un peu les n les variations, les OpenHermes tout ça que vous voyez dans le tableau sont des versions améliorées par la communauté qui ont poussé ce modèle à un niveau où il explose évidemment tous les 13 milliards, mais également les meilleurs modèles en 70 milliards de paramètres. Donc, c'est-à-dire que actuellement, la meilleure déclinaison de Mistral, c'est en 7 milliards de paramètres, c'est SterlingLM 7b alpha. Elle explose des GPT3.5 turbo, pplx 70 milliards. Donc, c'est ce qui est propriétaire.
Après, pour ce qui nous intéresse le plus nous, il y a les modèles ouverts. Ils sont en général plus petits, on va expliquer ce que ça veut dire juste après. Ils demandent donc moins de puissance de calcul, on peut les télécharger gratuitement, les faire tourner en local et les réentraîner, ce qui est l'un des trucs les plus intéressants sur nos propres données pour les rendre vraiment très très forts.
Jusqu'à il y a quelques semaines, il y avait en gros qu'une seule alternative sérieuse à ChatGPT et ses variations, dont on avait déjà parlé. C'est Liama 2, plus précisément des versions améliorées, finetunées de Liama 2, le modèle de Facebook. Ils finissent d'optimiser au max du max le travail qu'a fait l'équipe de Facebook sur son modèle dit de fondation.
Mais il y a 2 mois exactement, il y a des petites lignes jaunes qui se sont ajoutées au tableau. Ça s'est passé comment ? Mistral, le compte Mistral qui n'était suivi alors par quasiment personne, a publié un tweet. Pour ceux qui ne savent pas ce que c'est, c'est un lien Magnet. Donc, c'est tout simplement un torrent qu'on peut télécharger avec un client BitTorrent, comme on téléchargerait un film piraté ou plein d'autres trucs open source. Il a publié ça, pas d'explication, rien, pas de contexte, pas de vidéo promo, pas de billet de blog, rien, juste ce lien.
Et quand on clique dessus, on découvre un modèle à 7 milliards de paramètres. Et là, il faut qu'on explique un truc très important, parce que je vous l'ai dit, on peut avoir l'impression que ces lignes jaunes, elles sont en bas du classement, mais en fait, c'est si tu ne prends pas en compte la taille des modèles. C'est comme en boxe, il y a différentes catégories. Il y a les poids lourds, il y a les moyens et il y a les poids légers. Et en fait, c'est pas du tout la même chose de se battre avec des modèles qui font 200 milliards de paramètres ou avec des modèles qui font 70 milliards ou 7 milliards. Ce nombre de milliards décrit en fait la taille des poids. Donc, concrètement, c'est l'énorme fichier qui contient le réseau neuronal qui permet de faire les inférences, donc de créer les messages, d'écrire sous vos yeux les tokens. Et donc, plus un modèle est gros, plus il demande de la puissance de calcul, d'avoir des serveurs gigantesques avec des cartes graphiques de Nvidia qui coûtent 25 000 € pièces, qu'on cumule pour à la fin arriver à héberger des modèles qui vont faire du coup, bah 100 Go par exemple, ou 200 Go, souvent on ne sait pas exactement.
Mistral et le modèle Mixture of Experts
En plus, quelles sont la taille des modèles propriétaires ? À une époque, on pensait que les GPT3 et compagnie faisaient à peu près 130 milliards de paramètres, si je ne dis pas de bêtises. GPT4, c'est sûr que c'est énorme, autant dire que héberger ça vous-même sur vos appareils, c'est mort. Dites-vous que c'est juste mort. C'est pour ça que sont apparus des modèles plus petits. Par exemple, Liama, quand ils sont sortis, leurs modèles, ils les ont sortis souvent en trois versions, voire quatre. Il y a le plus gros, il fait 70 milliards de paramètres. Ça, pour vous donner un ordre d'idée, c'est le plus proche de ce qu'on a qui ressemble à une taille de modèle d'OpenAI ou d'Entropique. Et ça, bah pour le faire tourner, il faut en gros minimum deux cartes graphiques des 4080 Ti actuellement. C'était un des moyens d'avoir des modèles quasiment équivalents à GPT3.5. Donc, c'était déjà cool. Ils ont sorti également des modèles de 30 milliards de paramètres, de 13 milliards de paramètres et de 7 milliards de paramètres. Et vous pouvez vous dire, à quoi ça sert ? Pourquoi ils ne mettent pas plutôt toute leur énergie, tout leur argent à entraîner un unique modèle qui soit plus fort que tous les autres ? Et ben en gros, c'est un intérêt parce que différents modèles, donc différentes tailles de modèles, sont utiles pour différents trucs. Tu peux avoir besoin d'un très très gros modèle, donc d'une très bonne compréhension, d'une très grande culture générale, pour effectuer certaines actions en faisant des compromis sur le coût par mot, le coût par token et le fait d'avoir de très grosses infrastructures.
Mais parfois, tu peux avoir des besoins plus restreints que tu es prêt à échanger contre des performances. Donc, par exemple, si tu veux faire tourner un modèle sur ton Mac Mini qui a 16 Go de RAM, et ben tu es très content en fait qu'il y ait des modèles 13 milliards ou 7 milliards. Mais pendant très très longtemps, avec un modèle de 7 milliards de paramètres, tu faisais quasiment rien. Pour faire des résumés, ça peut marcher un petit peu, ou pour essayer de trouver des synonymes à un mot. Des choses qui jouent avec le langage, mais à un bas niveau, on va dire. C'est un élève de CM2, tu peux dire ça. Mistral, c'est un modèle de 7 milliards de paramètres, c'est le plus petit qu'on est qu'on voit être publié. Il est dans le top 10. Sauf que en fait, il est complètement dingue. Quand ils l'ont sorti, les gens, ils croyaient à moitié tu vois, tu on pensait qu'il y avait des bugs quand on voyait les benchmarks. On s'est dit, non mais c'est pas possible ce que ce que je vous explique, ils l'ont entraîné sur des benchmarks ça n'a pas de sens. On devrait pas pouvoir obtenir ce genre de résultat avec un modèle qui tient dans un fichier de 5 Go. Ça n'a pas de sens, mais en fait si. Que leur modèle de 7 milliards, surtout quand il a été fanionné, c'est un peu les n les variations, les OpenHermes tout ça que vous voyez dans le tableau sont des versions améliorées par la communauté qui ont poussé ce modèle à un niveau où il explose évidemment tous les 13 milliards, mais également les meilleurs modèles en 70 milliards de paramètres. Donc, c'est-à-dire que actuellement, la meilleure déclinaison de Mistral, c'est en 7 milliards de paramètres, c'est SterlingLM 7b alpha. Elle explose des GPT3.5 turbo, pplx 70 milliards. Donc, c'est ce qui est propriétaire.
Ok, après pour ce qui nous intéresse le plus, il y a les modèles ouverts. Ils sont en général plus petits, on va expliquer ce que ça veut dire juste après. Ils demandent donc moins de puissance de calcul, on peut les télécharger gratuitement, les faire tourner en local et les réentraîner, ce qui est l'un des trucs les plus intéressants sur nos propres données pour les rendre vraiment très très forts. Alors jusqu'à il y a quelques semaines, il y avait en gros qu'une seule alternative sérieuse à ChatGPT et ses variations, dont on avait déjà parlé. C'est Liama 2, plus précisément des versions améliorées, finetunées de Liama 2, le modèle de Facebook. Ils finissent d'optimiser au max du max le travail qu'a fait l'équipe de Facebook sur son modèle dit de fondation.
Mais il y a 2 mois exactement, il y a des petites lignes jaunes qui se sont ajoutées au tableau. Ça s'est passé comment ? Mistral, le compte Mistral qui n'était suivi alors par quasiment personne, a publié un tweet. Pour ceux qui ne savent pas ce que c'est, c'est un lien Magnet. Donc, c'est tout simplement un torrent qu'on peut télécharger avec un client BitTorrent, comme on téléchargerait un film piraté ou plein d'autres trucs open source. Il a publié ça, pas d'explication, rien, pas de contexte, pas de vidéo promo, pas de billet de blog, rien, juste ce lien.
Et quand on clique dessus, on découvre un modèle à 7 milliards de paramètres. Et là, il faut qu'on explique un truc très important, parce que je vous l'ai dit, on peut avoir l'impression que ces lignes jaunes, elles sont en bas du classement, mais en fait, c'est si tu ne prends pas en compte la taille des modèles. C'est comme en boxe, il y a différentes catégories. Il y a les poids lourds, il y a les moyens et il y a les poids légers. Et en fait, c'est pas du tout la même chose de se battre avec des modèles qui font 200 milliards de paramètres ou avec des modèles qui font 70 milliards ou 7 milliards. Ce nombre de milliards décrit en fait la taille des poids. Donc, concrètement, c'est l'énorme fichier qui contient le réseau neuronal qui permet de faire les inférences, donc de créer les messages, d'écrire sous vos yeux les tokens. Et donc, plus un modèle est gros, plus il demande de la puissance de calcul, d'avoir des serveurs gigantesques avec des cartes graphiques de Nvidia qui coûtent 25 000 € pièces, qu'on cumule pour à la fin arriver à héberger des modèles qui vont faire du coup, bah 100 Go par exemple, ou 200 Go, souvent on ne sait pas exactement. En plus, quelles sont la taille des modèles propriétaires ? À une époque, on pensait que les GPT3 et compagnie faisaient à peu près 130 milliards de paramètres, si je ne dis pas de bêtises. GPT4, c'est sûr que c'est énorme, autant dire que héberger ça vous-même sur vos appareils, c'est mort. Dites-vous que c'est juste mort. C'est pour ça que sont apparus des modèles plus petits. Par exemple, Liama, quand ils sont sortis, leurs modèles, ils les ont sortis souvent en trois versions, voire quatre. Il y a le plus gros, il fait 70 milliards de paramètres. Ça, pour vous donner un ordre d'idée, c'est le plus proche de ce qu'on a qui ressemble à une taille de modèle d'OpenAI ou d'Entropique. Et ça, bah pour le faire tourner, il faut en gros minimum deux cartes graphiques des 4080 Ti actuellement. C'était un des moyens d'avoir des modèles quasiment équivalents à GPT3.5. Donc, c'était déjà cool. Ils ont sorti également des modèles de 30 milliards de paramètres, de 13 milliards de paramètres et de 7 milliards de paramètres. Et vous pouvez vous dire, à quoi ça sert ? Pourquoi ils ne mettent pas plutôt toute leur énergie, tout leur argent à entraîner un unique modèle qui soit plus fort que tous les autres ? Et ben en gros, c'est un intérêt parce que différents modèles, donc différentes tailles de modèles, sont utiles pour différents trucs. Tu peux avoir besoin d'un très très gros modèle, donc d'une très bonne compréhension, d'une très grande culture générale, pour effectuer certaines actions en faisant des compromis sur le coût par mot, le coût par token et le fait d'avoir de très grosses infrastructures.
Mais parfois, tu peux avoir des besoins plus restreints que tu es prêt à échanger contre des performances. Donc, par exemple, si tu veux faire tourner un modèle sur ton Mac Mini qui a 16 Go de RAM, et ben tu es très content en fait qu'il y ait des modèles 13 milliards ou 7 milliards. Mais pendant très très longtemps, avec un modèle de 7 milliards de paramètres, tu faisais quasiment rien. Pour faire des résumés, ça peut marcher un petit peu, ou pour essayer de trouver des synonymes à un mot. Des choses qui jouent avec le langage, mais à un bas niveau, on va dire. C'est un élève de CM2, tu peux dire ça. Mistral, c'est un modèle de 7 milliards de paramètres, c'est le plus petit qu'on est qu'on voit être publié. Il est dans le top 10. Sauf que en fait, il est complètement dingue. Quand ils l'ont sorti, les gens, ils croyaient à moitié tu vois, tu on pensait qu'il y avait des bugs quand on voyait les benchmarks. On s'est dit, non mais c'est pas possible ce que ce que je vous explique, ils l'ont entraîné sur des benchmarks ça n'a pas de sens. On devrait pas pouvoir obtenir ce genre de résultat avec un modèle qui tient dans un fichier de 5 Go. Ça n'a pas de sens, mais en fait si. Que leur modèle de 7 milliards, surtout quand il a été fanionné, c'est un peu les n les variations, les OpenHermes tout ça que vous voyez dans le tableau sont des versions améliorées par la communauté qui ont poussé ce modèle à un niveau où il explose évidemment tous les 13 milliards, mais également les meilleurs modèles en 70 milliards de paramètres. Donc, c'est-à-dire que actuellement, la meilleure déclinaison de Mistral, c'est en 7 milliards de paramètres, c'est SterlingLM 7b alpha. Elle explose des GPT3.5 turbo, pplx 70 milliards. Donc, c'est ce qui est propriétaire.
Les avancées de Mistral et l'architecture Mixture of Experts
Mais il y a 2 mois exactement, il y a des petites lignes jaunes qui se sont ajoutées au tableau. Ça s'est passé comment ? Mistral, le compte Mistral qui n'était suivi alors par quasiment personne, a publié un tweet. Pour ceux qui ne savent pas ce que c'est, c'est un lien Magnet. Donc, c'est tout simplement un torrent qu'on peut télécharger avec un client BitTorrent, comme on téléchargerait un film piraté ou plein d'autres trucs open source. Il a publié ça, pas d'explication, rien, pas de contexte, pas de vidéo promo, pas de billet de blog, rien, juste ce lien.
Et quand on clique dessus, on découvre un modèle à 7 milliards de paramètres. Et là, il faut qu'on explique un truc très important, parce que je vous l'ai dit, on peut avoir l'impression que ces lignes jaunes, elles sont en bas du classement, mais en fait, c'est si tu ne prends pas en compte la taille des modèles. C'est comme en boxe, il y a différentes catégories. Il y a les poids lourds, il y a les moyens et il y a les poids légers. Et en fait, c'est pas du tout la même chose de se battre avec des modèles qui font 200 milliards de paramètres ou avec des modèles qui font 70 milliards ou 7 milliards. Ce nombre de milliards décrit en fait la taille des poids. Donc, concrètement, c'est l'énorme fichier qui contient le réseau neuronal qui permet de faire les inférences, donc de créer les messages, d'écrire sous vos yeux les tokens. Et donc, plus un modèle est gros, plus il demande de la puissance de calcul, d'avoir des serveurs gigantesques avec des cartes graphiques de Nvidia qui coûtent 25 000 € pièces, qu'on cumule pour à la fin arriver à héberger des modèles qui vont faire du coup, bah 100 Go par exemple, ou 200 Go, souvent on ne sait pas exactement. En plus, quelles sont la taille des modèles propriétaires ? À une époque, on pensait que les GPT3 et compagnie faisaient à peu près 130 milliards de paramètres, si je ne dis pas de bêtises. GPT4, c'est sûr que c'est énorme, autant dire que héberger ça vous-même sur vos appareils, c'est mort. Dites-vous que c'est juste mort. C'est pour ça que sont apparus des modèles plus petits. Par exemple, Liama, quand ils sont sortis, leurs modèles, ils les ont sortis souvent en trois versions, voire quatre. Il y a le plus gros, il fait 70 milliards de paramètres. Ça, pour vous donner un ordre d'idée, c'est le plus proche de ce qu'on a qui ressemble à une taille de modèle d'OpenAI ou d'Entropique. Et ça, bah pour le faire tourner, il faut en gros minimum deux cartes graphiques des 4080 Ti actuellement. C'était un des moyens d'avoir des modèles quasiment équivalents à GPT3.5. Donc, c'était déjà cool. Ils ont sorti également des modèles de 30 milliards de paramètres, de 13 milliards de paramètres et de 7 milliards de paramètres. Et vous pouvez vous dire, à quoi ça sert ? Pourquoi ils mettent pas plutôt toute leur énergie, tout leur argent à entraîner un unique modèle qui soit plus fort que tous les autres ? Et ben en gros, c'est un intérêt parce que différents modèles, donc différentes tailles de modèles, sont utiles pour différents trucs. Tu peux avoir besoin d'un très très gros modèle, donc d'une très bonne compréhension, d'une très grande culture générale, pour effectuer certaines actions en faisant des compromis sur le coût par mot, le coût par token et le fait d'avoir de très grosses infrastructures.
Mais parfois, tu peux avoir des besoins plus restreints que tu es prêt à échanger contre des performances. Donc, par exemple, si tu veux faire tourner un modèle sur ton Mac Mini qui a 16 Go de RAM, et ben tu es très content en fait qu'il y ait des modèles 13 milliards ou 7 milliards. Mais pendant très très longtemps, avec un modèle de 7 milliards de paramètres, tu faisais quasiment rien. Pour faire des résumés, ça peut marcher un petit peu, ou pour essayer de trouver des synonymes à un mot. Des choses qui jouent avec le langage, mais à un bas niveau, on va dire. C'est un élève de CM2, tu peux dire ça. Mistral, c'est un modèle de 7 milliards de paramètres, c'est le plus petit qu'on est qu'on voit être publié. Il est dans le top 10. Sauf que en fait, il est complètement dingue. Quand ils l'ont sorti, les gens, ils croyaient à moitié tu vois, tu on pensait qu'il y avait des bugs quand on voyait les benchmarks. On s'est dit, non mais c'est pas possible ce que ce que je vous explique, ils l'ont entraîné sur des benchmarks ça n'a pas de sens. On devrait pas pouvoir obtenir ce genre de résultat avec un modèle qui tient dans un fichier de 5 Go. Ça n'a pas de sens, mais en fait si. Que leur modèle de 7 milliards, surtout quand il a été fanionné, c'est un peu les n les variations, les OpenHermes tout ça que vous voyez dans le tableau sont des versions améliorées par la communauté qui ont poussé ce modèle à un niveau où il explose évidemment tous les 13 milliards, mais également les meilleurs modèles en 70 milliards de paramètres. Donc, c'est-à-dire que actuellement, la meilleure déclinaison de Mistral, c'est en 7 milliards de paramètres, c'est SterlingLM 7b alpha. Elle explose des GPT3.5 turbo, pplx 70 milliards. Donc, c'est ce qui est propriétaire.
Les avancées de Mistral et l'architecture Mixture of Experts
Ok, après pour ce qui nous intéresse le plus, il y a les modèles ouverts. Ils sont en général plus petits, on va expliquer ce que ça veut dire juste après. Ils demandent donc moins de puissance de calcul, on peut les télécharger gratuitement, les faire tourner en local et les réentraîner, ce qui est l'un des trucs les plus intéressants sur nos propres données pour les rendre vraiment très très forts.
Alors jusqu'à il y a quelques semaines, il y avait en gros qu'une seule alternative sérieuse à ChatGPT et ses variations, dont on avait déjà parlé. C'est Liama 2, plus précisément des versions améliorées, finetunées de Liama 2, le modèle de Facebook. Ils finissent d'optimiser au max du max le travail qu'a fait l'équipe de Facebook sur son modèle dit de fondation.
Mais il y a 2 mois exactement, il y a des petites lignes jaunes qui se sont ajoutées au tableau. Ça s'est passé comment ? Mistral, le compte Mistral qui n'était suivi alors par quasiment personne, a publié un tweet. Pour ceux qui ne savent pas ce que c'est, c'est un lien Magnet. Donc, c'est tout simplement un torrent qu'on peut télécharger avec un client BitTorrent, comme on téléchargerait un film piraté ou plein d'autres trucs open source. Il a publié ça, pas d'explication, rien, pas de contexte, pas de vidéo promo, pas de billet de blog, rien, juste ce lien.
Et quand on clique dessus, on découvre un modèle à 7 milliards de paramètres. Et là, il faut qu'on explique un truc très important, parce que je vous l'ai dit, on peut avoir l'impression que ces lignes jaunes, elles sont en bas du classement, mais en fait, c'est si tu ne prends pas en compte la taille des modèles. C'est comme en boxe, il y a différentes catégories. Il y a les poids lourds, il y a les moyens et il y a les poids légers. Et en fait, c'est pas du tout la même chose de se battre avec des modèles qui font 200 milliards de paramètres ou avec des modèles qui font 70 milliards ou 7 milliards. Ce nombre de milliards décrit en fait la taille des poids. Donc, concrètement, c'est l'énorme fichier qui contient le réseau neuronal qui permet de faire les inférences, donc de créer les messages, d'écrire sous vos yeux les tokens. Et donc, plus un modèle est gros, plus il demande de la puissance de calcul, d'avoir des serveurs gigantesques avec des cartes graphiques de Nvidia qui coûtent 25 000 € pièces, qu'on cumule pour à la fin arriver à héberger des modèles qui vont faire du coup, bah 100 Go par exemple, ou 200 Go, souvent on ne sait pas exactement.
En plus, quelles sont la taille des modèles propriétaires ? À une époque, on pensait que les GPT3 et compagnie faisaient à peu près 130 milliards de paramètres, si je ne dis pas de bêtises. GPT4, c'est sûr que c'est énorme, autant dire que héberger ça vous-même sur vos appareils, c'est mort. Dites-vous que c'est juste mort. C'est pour ça que sont apparus des modèles plus petits. Par exemple, Liama, quand ils sont sortis, leurs modèles, ils les ont sortis souvent en trois versions, voire quatre. Il y a le plus gros, il fait 70 milliards de paramètres. Ça, pour vous donner un ordre d'idée, c'est le plus proche de ce qu'on a qui ressemble à une taille de modèle d'OpenAI ou d'Entropique. Et ça, bah pour le faire tourner, il faut en gros minimum deux cartes graphiques des 4080 Ti actuellement. C'était un des moyens d'avoir des modèles quasiment équivalents à GPT3.5. Donc, c'était déjà cool. Ils ont sorti également des modèles de 30 milliards de paramètres, de 13 milliards de paramètres et de 7 milliards de paramètres. Et vous pouvez vous dire, à quoi ça sert ? Pourquoi ils ne mettent pas plutôt toute leur énergie, tout leur argent à entraîner un unique modèle qui soit plus fort que tous les autres ? Et ben en gros, c'est un intérêt parce que différents modèles, donc différentes tailles de modèles, sont utiles pour différents trucs. Tu peux avoir besoin d'un très très gros modèle, donc d'une très bonne compréhension, d'une très grande culture générale, pour effectuer certaines actions en faisant des compromis sur le coût par mot, le coût par token et le fait d'avoir de très grosses infrastructures.
Mais parfois, tu peux avoir des besoins plus restreints que tu es prêt à échanger contre des performances. Donc, par exemple, si tu veux faire tourner un modèle sur ton Mac Mini qui a 16 Go de RAM, et ben tu es très content en fait qu'il y ait des modèles 13 milliards ou 7 milliards. Mais pendant très très longtemps, avec un modèle de 7 milliards de paramètres, tu faisais quasiment rien. Pour faire des résumés, ça peut marcher un petit peu, ou pour essayer de trouver des synonymes à un mot. Des choses qui jouent avec le langage, mais à un bas niveau, on va dire. C'est un élève de CM2, tu peux dire ça. Mistral, c'est un modèle de 7 milliards de paramètres, c'est le plus petit qu'on est qu'on voit être publié. Il est dans le top 10. Sauf que en fait, il est complètement dingue. Quand ils l'ont sorti, les gens, ils croyaient à moitié tu vois, tu on pensait qu'il y avait des bugs quand on voyait les benchmarks. On s'est dit, non mais c'est pas possible ce que ce que je vous explique, ils l'ont entraîné sur des benchmarks ça n'a pas de sens. On devrait pas pouvoir obtenir ce genre de résultat avec un modèle qui tient dans un fichier de 5 Go. Ça n'a pas de sens, mais en fait si. Que leur modèle de 7 milliards, surtout quand il a été fanionné, c'est un peu les n les variations, les OpenHermes tout ça que vous voyez dans le tableau sont des versions améliorées par la communauté qui ont poussé ce modèle à un niveau où il explose évidemment tous les 13 milliards, mais également les meilleurs modèles en 70 milliards de paramètres. Donc, c'est-à-dire que actuellement, la meilleure déclinaison de Mistral, c'est en 7 milliards de paramètres, c'est SterlingLM 7b alpha. Elle explose des GPT3.5 turbo, pplx 70 milliards. Donc, c'est ce qui est propriétaire.
Conclusion
En conclusion, l'entreprise Mistral a révolutionné le domaine des modèles de langage dans l'intelligence artificielle. Avec leurs modèles alternatifs à ChatGPT, ils ont réussi à faire trembler toute l'industrie de l'IA, valorisant ainsi leur entreprise à près de 2 milliards de dollars. Leurs modèles ouverts, notamment Mistral et SterlingLM, sont de véritables chefs-d'œuvre d'intelligence artificielle. Ils offrent des performances remarquables, même avec des modèles de taille compacte. Le monde de l'IA évolue rapidement, et Mistral est en train de prendre une place de leader avec ses avancées technologiques. Nous pouvons être fiers de cette entreprise française qui repousse les limites de ce qui est possible en matière d'IA.