L’intelligence artificielle pour aider à déchiffrer l’écriture de la civilisation de l’Indus

Inde

Actualité
Inde | Sciences et technologies de l’information et de la communication : TIC, télécoms, micro-nanotechnologies, informatique
24 mars 2017

Des scientifiques de Chennai ont développé un algorithme d’apprentissage profond pour aider au déchiffrement de l’écriture de la civilisation de l’Indus, dont la langue reste pour l’instant inconnue.

La civilisation de la vallée de l’Indus, aussi appelée civilisation harappéenne (-2600 à -1900 av. J.-C.), est une civilisation de l’Inde antique dont les vestiges s’étendent sur les régions actuelles du Baloutchistan, du Sindh, du Penjab et du Gujarat. Elle se caractérise par un fort degré d’urbanisation avec des cités remarquablement développées, organisées selon une planification complexe, qui intégraient notamment la gestion des eaux usées.

Peu de connaissances sont toutefois disponibles sur cette civilisation : depuis sa découverte au XIXème siècle, les textes et les symboles qui s’y rattachent restent indéchiffrables. Environ 400 symboles différents ont été recensés, mais sans « pierre de Rosette », ou texte bilingue avec une autre écriture connue, linguistes et épigraphes n’ont pas été capables de déchiffrer l’écriture de la civilisation de l’Indus.

Adoptant une approche nouvelle, deux scientifiques de Chennai, Ronojoy Adhikari, de l’Institute of Mathematical Sciences et Satish Palaniappan, du Sri Sivasubramaniya Nadar College of Engineering, ont développé un algorithme permettant de lire l’écriture de la civilisation de l’Indus à partir des sceaux ou poteries qui en sont recouverts.

Cet algorithme d’apprentissage profond («  deep-learning algorithm  ») peut « reconnaître » à partir de l’image d’un objet, la partie qui contient des caractères écrits, de les séparer en graphèmes (en linguistique, la plus petite unité d’un système d’écriture) individuels, puis de les identifier à partir d’un corpus de texte standard.

L’algorithme se base sur plusieurs niveaux de réseaux de neurones artificiels, une technologie d’intelligence artificielle appelée « deep neural network » déjà utilisée notamment dans les voitures autonomes ou la simulation du jeu de Go. Ces différents niveaux imitent le fonctionnement des différentes régions du cerveau humain au cours du processus de lecture qui se déroule en trois phases. Lors de la première étape, les parties de l’image contenant des caractères sont découpées puis sélectionnées ; ces images sont ensuite elles-mêmes découpées en morceaux ne contenant qu’un seul graphème. Enfin, chaque graphème est classifié pour correspondre à l’un des 417 caractères de l’écriture de la civilisation de la vallée de l’Indus.

Cette opération permettra de créer de façon automatisée un corpus standardisé de textes de la civilisation de l’Indus à partir de l’ensemble des objets trouvés lors de fouilles archéologiques, une tâche qui autrement aurait requis un effort humain considérable. Un tel corpus représenterait une avancée significative pour la recherche épigraphique, et pourrait conduire à déchiffrer cette écriture mystérieuse.

Sources
• “Chennai team taps AI to read Indus Script”, The Hindu, 11 March 2017
• Satish Palaniappan, Ronojoy Adhikari, “Deep Learning the Indus Script”, arXiv, 2 February 2017

Rédacteur
Laurent Glattli
laurent.glattli[at]diplomatie.gouv.fr
Service pour la Science et la Technologie, Ambassade de France en Inde

PLAN DU SITE