Modèles de représentation en intelligence artificielle

[latexpage]

Image: Data warehouse.

D’après la théorie de la communication de l’information de Shannon, passée à la postérité sous le nom de la théorie de l’information, une information est une grandeur mesurable, sinon observable – car nul n’a jamais vu l’information1)https://fr.wikipedia.org/wiki/Th\%C3\%A9orie_de_l\%27information, le 16/11/2016.. Ainsi l’information n’est ni divisible ni additive2)Rien d’étonnant à ce que le substantif « information » soit un substantif non comptable (uncountable) en anglais.: elle est ou elle n’est pas, et quand elle existe, i.e. quand elle est non nulle, alors elle peut être valorisée. Dans la suite, nous appellerons alors amas informationnel toute collection de données à laquelle il manque une logique d’organisation issue de l’observation d’un objet ou d’un phénomène. Cet amas informationnel peut aussi bien représenter les données d’un instantané d’un objet (temps absent) que celles d’un objet sur une période donnée de temps; dans ce dernier cas nous parlerons d’un flux informationnel.

Au sein du vaste champs d’étude que représente les sciences du traitement de l’information, l’un des aspects aussi bien incontournable que des plus intéressants qui soit est celui qui se décline en reconnaissance, détection et inférence de tendances et de motifs au sein d’un amas informationnel.

Dans cet article nous présenterons un modèle de représentation et des concepts y afférents, issus du domaine de l’intelligence artificielle qui sont utilisés pour inférer des connaissances au sein d’un amas informationnel. Dans notre cas, une explication scrupuleuse et une étude méticuleuse de ce modèle est incontournable dans l’optique d’inférer des connaissances profondes et d’exhiber un ordre latent des choses et des phénomènes étudiés. En effet, pour exhiber et interpréter de l’information, il convient en premier lieu de s’en faire une représentation qui soit la plus pertinente, sans quoi aucune information ne peut être révélée. Pour étayer nos dires, prenons l’exemple d’une recherche de trésor dans une forêt. Rechercher ce trésor avec une carte fournissant l’altitude des arbres composant cette forêt n’aurait aucun sens. Il s’agirait donc d’une mauvaise représentation de l’objet forêt. A l’inverse, une carte représentant les sentiers traversant cette même forêt ainsi que son nivellement serait beaucoup plus pertinente pour cette problématique de recherche de trésor. Nous avons donc ici une bonne et une mauvaise représentation. Ce bref exemple nous permet aussi de relever une caractéristique décisive d’une représentation: une représentation est déjà de l’information en soi dans la mesure où elle nous apporte de l’information quant à l’objet étudié. Dans notre cadre d’étude les notions de structure et de représentation sont voisines, bien que nous les différencions de telle sorte qu’une structure correspond à la configuration immanente et absolue de l’objet étudié quand sa représentation pourrait être définie comme sa structure relative aux moyens ou aux outils utilisés pour la décrire.

Les concepts abordés tout au long de cet article sont pour la plupart issus de l’apprentissage automatique (machine learning en anglais) qui est le domaine de l’intelligence artificielle qui se préoccupe tout particulièrement de la construction et de l’adaptation de modèles internes3)Notion qui trouve son origine dans la théorie du contrôle et qui correspond à un processus qui simule la réponse (ou sortie) d’un système dans le but d’estimer le résultat d’une perturbation de ce système. encore appelés modèles de représentation. Ce domaine étant encore dans une large mesure un domaine issu du monde de la recherche académique et industrielle, la traduction en anglais des concepts abordés seront donnés entre parenthèses.

Hierarchies compositionnelles

Les hiérarchies compositionnelles (compositional hierarchies) encore appelées compositions hiérarchiques (hierarchical composition) ou hiérarchies partitive (part-whole hierarchies) sont des représentations obtenues en composant d’autres structures de plus bas niveau. Dans ce type de hiérarchie, un objet est représenté par un graphe dans lequel ses noeuds représentent des parties et des sous-structures, quand les arcs du graphe décrivent la structure de l’objet. Dans le cadre de l’apprentissage automatique, les hiérarchies compositionnelles permettent d’apprendre une représentation où les plus hauts niveaux d’abstraction sont construits récursivement à partir des niveaux inférieurs. La figure ci-dessous présente un exemple de différentes hiérarchies compositionnelles pour le même objet (le chiffre 9 pour un affichage LED à sept segments.)

Exemple de différentes hiérarchies compositionnelles pour le même objet (le chiffre 9 pour un affichage LED à sept segments). Un modèle met l’accent sur les lignes parallèles engendrant le carré dans la partie du haut de l’image, tandis qu’un autre modèle met en avant les angles du carré comme sous-structures intermédiaires. L’exemple de droite présente une hiérarchie qui “réutilise” des parties4)Joachim Utans.
Learning in Compositional Hierarchies: Inducing the Structure of from Data.
Advances in Neural Information Processing Systems 6, 7th NIPS Conference, Denver, Colorado, USA, 1993,
285-292 (1993),
.

Dans le cadre de l’apprentissage automatique, les compositions hiérarchiques permettent d’apprendre une représentation où les plus hauts niveaux d’abstractions sont construits récursivement à partir des niveaux d’abstraction inférieurs.

L’apprentissage de représentations

L’apprentissage de représentation est un ensemble de méthodes qui permettent à une machine de découvrir automatiquement les représentations nécessaires à la détection ou à la reconnaissance. Un algorithme d’apprentissage de représentations découvre les caractéristiques ou facteurs explicatifs.

L’apprentissage profond (deep learning) qui est un sous-domaine de l’apprentissage automatique très récent, en pleine expansion et qui fournit déjà des résultats sans pareils est un type particulier de procédure apprentissage de représentation qui découvre des niveaux multiples de représentation, avec des caractéristiques de haut niveau représentant les aspects abstraits des données utilisées. L’apprentissage profond s’appuie notamment sur les réseaux de neurones artificiels profonds (deep artificial neural networks) qui exploitent la propriété fondamentale que la plupart des signaux5)En cybernétique, un signal est la variation d’une grandeur physique de nature quelconque, transportant de l’information, et grâce à laquelle, dans une installation, un élément en influence un autre, Larousse naturels sont des hiérarchies compositionnelles. Nous reviendrons plus en détail dans un futur article sur les réseaux de neurones artificiels.

Représentation distribuée

Un grand avantage des réseaux de neurones profonds est leur utilisation de représentations distribuées. Les représentations distribuées apportent un important pouvoir de composition mais elles dépendent de la structure componentielle6)Une structure componentielle est une structure décrite par un ensemble de caractéristiques ou de composants. Inférer de telles structures revient à découvrir cet ensemble de composants. de la distribution sous-jacente ayant générée les données7)Par hypothèse, tout ensemble de données est généré par une loi de probabilité encore appelée distribution de probabilités théorique et inconnue. Pour plus de détails concernant les probabilités et la modélisation par le hasard, se référer à notre article sur le hasard: http://www.socdis.fr/le-hasard/. L’avantage principal de l’utilisation de représentations distribuées provient du fait que leur apprentissage permet la généralisation à de nouvelles combinaisons de caractéristiques8)Caractéristiques inhérentes à ces données, découvertes par l’algorithme d’apprentissage de représentation. au-delà de celles aperçues dans l’amas informationnel (ou base de données quand ces données sont stockées informatiquement et sont encore brutes) utilisées pour calibrer le modèle9)On parle de base de données d’apprentissage, « apprentissage » étant dans notre cadre un synonyme de « calibration » (par exemple une représentation définie à partir de \(n\) caractéristiques permet \(2^n\) combinaisons).

De telles représentations sont appelées des représentations distribuées à cause de leurs éléments (caractéristiques) qui sont non mutuellement exclusives et toutes leurs configurations possibles qui correspondent à la variation observée dans les données utilisées.

Nous avons donc posé dans cet article le cadre conceptuel portant sur les modèles de représentation utilisés pour réaliser de l’inférence dans un amas informationnel et en exhiber un ordre latent et profond du phénomène étudié, le seul qui permette de capter l’information profonde.

References   [ + ]

1. https://fr.wikipedia.org/wiki/Th\%C3\%A9orie_de_l\%27information, le 16/11/2016.
2. Rien d’étonnant à ce que le substantif « information » soit un substantif non comptable (uncountable) en anglais.
3. Notion qui trouve son origine dans la théorie du contrôle et qui correspond à un processus qui simule la réponse (ou sortie) d’un système dans le but d’estimer le résultat d’une perturbation de ce système.
4. Joachim Utans.
Learning in Compositional Hierarchies: Inducing the Structure of from Data.
Advances in Neural Information Processing Systems 6, 7th NIPS Conference, Denver, Colorado, USA, 1993,
285-292 (1993),
5. En cybernétique, un signal est la variation d’une grandeur physique de nature quelconque, transportant de l’information, et grâce à laquelle, dans une installation, un élément en influence un autre, Larousse
6. Une structure componentielle est une structure décrite par un ensemble de caractéristiques ou de composants. Inférer de telles structures revient à découvrir cet ensemble de composants.
7. Par hypothèse, tout ensemble de données est généré par une loi de probabilité encore appelée distribution de probabilités théorique et inconnue. Pour plus de détails concernant les probabilités et la modélisation par le hasard, se référer à notre article sur le hasard: http://www.socdis.fr/le-hasard/
8. Caractéristiques inhérentes à ces données, découvertes par l’algorithme d’apprentissage de représentation.
9. On parle de base de données d’apprentissage, « apprentissage » étant dans notre cadre un synonyme de « calibration »

Leave a Reply

Your email address will not be published. Required fields are marked *

error: Content is protected !!