L’intelligence artificielle peut-elle contribuer à la préservation des langues africaines ? Umbaji tente de relever ce défi avec Yodi, un modèle linguistique dédié à l’Ewe et au Kabye, deux langues parlées par 20 millions de personnes en Afrique de l’Ouest.
Aujourd’hui, les outils comme ChatGPT ne prennent pas en charge ces langues, ce qui limite l’accès aux technologies pour de nombreux locuteurs. Umbaji cherche à combler cette lacune en développant des solutions de traduction et de compréhension automatique adaptées aux besoins locaux.
Pour entraîner ses modèles, l’entreprise s’appuie sur une communauté de soixante-dix contributeurs qui participent via une plateforme collaborative. Les locuteurs natifs peuvent y enregistrer des textes et des audios, permettant ainsi d’enrichir les bases de données nécessaires à l’amélioration des traductions. L’initiative ne se limite pas aux textes écrits : elle comprend également un chatbot accessible sur WhatsApp, qui facilite l’accès à l’information pour les personnes ne maîtrisant pas la lecture.
L’ambition d'Umbaji est d’étendre son modèle à d’autres langues africaines et d’améliorer la précision des traductions pour divers domaines tels que l’agriculture, la santé et la finance. Cette approche vise à rendre l’intelligence artificielle plus inclusive en s’adaptant aux réalités culturelles et linguistiques locales.
Lien : https://www.umbaji.org/lang/fr/yodi
Mots-clés : IA, intelligence artificielle, langues africaines, traduction automatique, Ubanji, Yodi, ChatGPT, Ewe, Kabye, WhatsApp, technologie linguistique
Cliquez sur le bouton "play" ▷ en haut de la page pour écouter l'épisode
Monde Numérique :
[0:01] Leroy Abiguime, bonjour. Vous représentez ici au sommet de l'IA une société qui
Monde Numérique :
[0:07] s'appelle Yodi. Qu'est-ce que vous faites exactement ?
Leroy Abiguime:
[0:08] Une société qui s'appelle Umbaji, mais on fait un produit qui s'appelle Yodi, qui veut dire parler en langue locale togolaise. Donc nous, ce qu'on fait, c'est des modèles de langues pour les langues africaines. Donc aujourd'hui, on fait un modèle de langue qui supporte l'Ewe et le Kabye, qui sont deux langues qui sont parlées en Afrique de l'Ouest et dans le monde par 20 millions de personnes.
Monde Numérique :
[0:28] Parce qu'aujourd'hui, ChatGPT, par exemple, ou d'autres, le chat, etc., ne savent pas parler dans ces langues-là ?
Leroy Abiguime:
[0:33] Oui, justement. Tchadjipiti ne sait pas parler dans des langues de nos pays. Mais ce qui est bien, c'est que Tchadjipiti peut répondre à certaines questions. Et puis nous, après, ce qu'on fait, c'est qu'on fait de la traduction, par exemple, dans nos langues, pour que même des gens qui ne comprennent pas le français, ni l'anglais, ni d'autres langues, en fait, ne se sentent pas délaissés et ils puissent aussi être à jour, en fait, Que ce soit dans le domaine de la technologie, dans le domaine de la santé, dans le domaine de la finance, dans le domaine de l'agriculture même. L'idée, c'est que des fermiers qui sont quelque part loin puissent avoir accès à des informations. De la même manière que ceux qui sont allés à l'école, qui ont étudié, ont accès à l'information aussi.
Monde Numérique :
[1:16] Est-ce que vous avez suffisamment de data ? Sur quelle base vous entraînez vos modèles ?
Leroy Abiguime:
[1:21] Alors nous, on a une communauté d'environ un peu plus de 70 membres. Donc, ce qu'on fait, c'est que les membres de la communauté contribuent sur une data interface que nous, on a créée. Donc, on a créé une data interface. Si vous allez sur contribution.ubandie.org, vous pouvez créer un compte et vous enregistrer. Et puis, contribuer dans votre langue. Si vous savez lire votre langue locale et vous la parler, vous pouvez contribuer. C'est-à-dire, vous lisez du texte, par exemple, et vous soumettez de l'audio.
Leroy Abiguime:
[1:49] Et nous, derrière, on l'enregistre et on entraîne nos modèles.
Monde Numérique :
[1:52] Donc, au-delà de la langue, j'imagine qu'il y a également la notion de culture qui est très importante. Parce que, par exemple, on reproche à Chagipiti d'être très américain. On sait que les données sur lesquelles les modèles sont entraînés reflètent également la culture.
Leroy Abiguime:
[2:08] Oui, en fait, c'est important. Nous, aujourd'hui, comme je vous le dis, on fait principalement de la traduction. Mais l'idée par la suite, c'est d'avoir de la déta qui reflète les domaines de l'agriculture, de la santé, mais qui sont dans le contexte de nos pays. Donc l'idée, c'est de faire des IA qui sont pointus en fait avec nos données à nous.
Monde Numérique :
[2:28] Vous utilisez quel modèle ?
Leroy Abiguime:
[2:29] Alors, on ne fait pas de fine-tuning, on n'utilise pas de modèle en fait. La traduction en fait. Si, c'est juste qu'on fait en fait nos modèles nous-mêmes. C'est from scratch, donc disons qu'en fait, on écrit tout de A à Z, même la déta interface, comme je le disais, en fait, et voilà.
Monde Numérique :
[2:50] Ce n'était pas intéressant de prendre des modèles open source comme Mistral ou autre, etc.
Leroy Abiguime:
[2:54] Alors, si, c'est intéressant, en fait, en termes de réponse de questions, par exemple, oui, on utilise le chat GPT pour répondre à des questions. Si vous voulez, je peux vous faire une démo du modèle là pour que vous voyez.
Monde Numérique :
[3:05] Allez, allons-y.
Leroy Abiguime:
[3:06] Alors.
Monde Numérique :
[3:07] Là, on est sur WhatsApp.
Leroy Abiguime:
[3:08] C'est ça ? Là, on est sur WhatsApp, donc nous, on a un bot WhatsApp, en fait, sur lequel vous pouvez tester notre modèle. Donc, basiquement, c'est un bot à qui vous pouvez écrire. Alors, salut. C'est ChatGPT qui répond, là, vous allez voir. Il dit, comment puis-je vous aider aujourd'hui ? Donc, si vous lui posez une question, en fait, il va répondre à la question. Et vous pouvez lui demander, en fait, voulez-vous traduire en ewe ? Il traduit, en fait, en texte ewe, là, vous voyez. Alors, ça veut dire en fait, comment est-ce que je peux vous aider aujourd'hui ? C'est un peu ce qu'il a écrit plus haut en fait. D'accord. Et maintenant, en audio, vous écoutez. Un peu plus haut, on avait le ministre qui est passé tout à l'heure en fait, et on a fait une démo avec lui en fait.
Leroy Abiguime:
[4:04] on lui a posé quelques questions il comprend l'anglais aussi et là vous avez en fait les réponses traduites avec des audios sous différents voilà un truc.
Monde Numérique :
[4:17] Donc on peut l'interroger aussi bien en anglais que dans c'est la langue de quel pays ça.
Leroy Abiguime:
[4:22] ? c'est la langue du Togo, bon elle est parlée au Togo au Bénin et au Ghana.
Monde Numérique :
[4:27] Ça rend ChatGPT international ?
Leroy Abiguime:
[4:28] Oui, oui, oui
Monde Numérique :
[4:30] Super, merci beaucoup.