Menu

Grand Angle

Des chercheurs marocains et internationaux développent Atlas-Chat, la première IA en Darija

Atlas-Chat est le premier grand modèle linguistique adapté à la Darija, l'arabe marocain, surpassant des modèles similaires dans la gestion de ce dialecte. Le modèle a été créé en utilisant des ressources linguistiques existantes et de nouveaux jeux de données. 

Publié
DR
Temps de lecture: 2'

Une équipe de chercheurs du Maroc et d'ailleurs a développé les premiers grands modèles de langage spécifiquement conçus pour la Darija, l'arabe marocain. Nommé «Atlas-Chat», ce modèle d'IA est un clin d'œil aux montagnes de l'Atlas, symbole du Maroc.

Atlas-Chat est capable de comprendre et de parler la Darija. Dans un article de recherche publié sur ResearchGate en septembre, intitulé «Atlas-Chat : Adapter les grands modèles de langage pour le dialecte arabe marocain à faibles ressources», les chercheurs expliquent que le modèle a été développé en intégrant des ressources linguistiques existantes en Darija, en créant de nouveaux ensembles de données et en traduisant soigneusement les instructions en anglais.

Atlas-Chat-9B response example 2 (The model can understand English instructions but only responds in Darija)Atlas-Chat-9B response example 2 (The model can understand English instructions but only responds in Darija)Exemple de réponse d'Atlas-Chat-9B 2 (Le modèle peut comprendre les instructions en anglais mais ne répond qu'en Darija)

L'article souligne également que leurs modèles, «Atlas-Chat-9B et Atlas-Chat-2B», surpassent d'autres modèles de langage spécialisés en arabe de pointe, y compris LLaMa, Jais et AceGPT dans le suivi des instructions en Darija. Les modèles Atlas-Chat peuvent également effectuer des tâches standard de traitement du langage naturel (NLP), qui incluent l'interprétation, la manipulation et la compréhension du langage humain.

Leurs résultats montrent également qu'Atlas-Chat a atteint une «augmentation de performance de 13 % par rapport à un modèle plus grand de 13B sur DarijaMMLU», une nouvelle suite d'évaluation pour la Darija qui couvre à la fois des tâches discriminatives et génératives.

La Darija et les langues à faibles ressources

L'étude observe également que bien que les grands modèles de langage excellent dans la compréhension et l'utilisation des langues majeures, ils ont souvent du mal avec les langues sous-représentées, en particulier les dialectes arabes comme la Darija. Cela est principalement dû au fait que bien que l'arabe bénéficie d'une riche histoire culturelle et d'une structure linguistique complexe, la plupart des efforts pour développer des modèles spécialisés en arabe se concentrent sur le bilinguisme—équilibrant l'anglais et l'arabe standard moderne (MSA)—tout en négligeant souvent l'arabe dialectal (DA).

Bien que l'arabe dialectal soit parlé par des millions de personnes, il y a un manque de données disponibles pour entraîner de grands modèles de langage pour celui-ci. Pour y remédier, les chercheurs ont créé de nouveaux ensembles de données et des tests d'évaluation spécifiquement pour le DA.

Atlas-Chat-9B response example 1.Atlas-Chat-9B response example 1.Exemple de réponse d'Atlas-Chat-9B 1.

La recherche a été menée par des chercheurs de l'Université Mohamed bin Zayed d'intelligence artificielle, de l'École des Mines de Rabat, de l'Université Mohammed VI Polytechnique, du KTH Royal Institute of Technology, de l'Atlas Institute for Artificial Intelligence et de l'École Polytechnique.

Pour inspirer le développement de modèles similaires pour d'autres langues à faibles ressources, les chercheurs ont rendu toutes leurs ressources disponibles au public.

Ben-al
Date : le 03 octobre 2024 à 02h15
La darija n’est pas un dialecte arabe. C’est pour cela que les vrais arabes, du Moyen Orient, n’y comprennent rien ou peu. J’ai entendu cela de la bouche des Palestiniens, des Libanais, des Irakiens, des Égyptiens … à maintes reprises. Il y a certes des mots d’origine arabe comme il y en a de Tamazight, Français, Espagnol et même Anglais … de nos jours. La fabrique/structure est fondamentalement Amazigh d’après les chercheurs qui l’ont étudiée scientifiquement. Cela ne la rend pas meilleures ou pire mais il faut se rendre à l’évidence et surtout comprendre pourquoi les arabes ne la comprennent pas. Cela pourrait aussi expliquer pourquoi l’AI a du mal à la modéliser.
Yazs
Date : le 02 octobre 2024 à 22h54
C'est intéressant mais je ne pense que ça puisse prendre en dehors d'un contexte pédagogique d'apprentissage du Darija. L'arabe standard est la langue "formelle" des pays de la région MENA, Maroc inclus. C'est d'ailleurs une force stratégique de premier plan qui n'est malheureusement pas assez exploité.
Berkshire
Date : le 02 octobre 2024 à 20h23
Je n'ai pas trouvé de lien vers une interface qui permet de le tester rapidement et directement sans passer par les API !!! Je voudrais le tester avec mes dialectes de Chouen et Tanger. A partir des quelques rares exemples que j'ai pu apercevoir, le langage utilisé est plutôt correct, c'est bien Darija mais fortement enrichie par des termes d'arabe classique pour éviter les termes aberrant totalement déformés de leur origine arabe ou française. C'est rassurant car quand je vois l'utilisation de Darija par certains supports écrits ou audio visuels au Maroc, surtout les publicités, je suis horrifié et dégoûté. Sinon le projet est intéressant pour des besoins pédagogiques et de recherche, mais j'ai des doutes sur une adoption par le public !! Intéressante expérience .... à suivre donc. Bon courage .
Dernière modification le 03/10/2024 02:15
Emission spécial MRE
2m Radio + Yabiladi.com