Les modèles structures--activité (QSAR) cherchent à extraire de l'information utile dans des observations relatives à des structures, dans le but d'associer des éléments structurels à une activité d'ordre macroscopique. Un exemple typique est celui de la chimie organique, où certaines propriétés physico-chimiques d'une molécule sont fonction de son agencement interne (conformation spatiale) d'atomes et de liaisons covalentes.
On retrouve en particulier des sous-structures caractéristiques, nommées groupements fonctionnels qui s'apparentent à des sous-graphes, que l'on peut utiliser pour construire de tels modèles. L'utilisation de tels motifs ayant un lien direct avec le domaine étudié a l'avantage d'aboutir à des modèles facilement interprétables, permettant de compléter une expertise métier.
L'objectif de cette thèse est de proposer des axes d'automatisation d'extraction de tels fragments, et d'expérimenter de nouvelles méthodes pour leur adjoindre le plus de sémantique possible.