Cet exposé s'inscrit dans le domaine de l'IA, plus précisément de la vision par ordinateur. Le fil conducteur repose sur la définition de représentations d'images de plus haut niveau, plus proches de la sémantique et du raisonnement humain. Les représentations d'images sont une des clés essentielles de la vision artificielle car elles permettent, à travers de nouveaux espaces de représentation des données visuelles, d'améliorer la capacité des algorithmes à raisonner pour différentes tâches de traitement et d'analyse (e.g. segmentation, reconnaissance, classification), avec comme objectif ultime de réduire le fossé sémantique entre les caractéristiques de bas niveau extraites des pixels et la perception humaine du contenu imagé. J'aborderai dans cette présentation quelques contributions théoriques et méthodologiques couvrant différents aspects de l'analyse d'images, allant de la définition de primitives, potentiellement structurées sous la forme d'arborescences, à l'élaboration de descripteurs de relations spatiales pour la reconnaissance d'objets et de scènes en passant par l'intégration de sémantique dans la chaîne d'analyse et d'apprentissage. Les principales applications concernent l'analyse d'images naturelles, de vidéos, de documents, de télédétection et l'imagerie (bio-)médicale, ces dernières thématiques pouvant impliquer des problématiques de multimodalité.