Extraction générique de connaissances à partir de données textuelles et mesure de la performance des systèmes d’extraction de relations dans un contexte non supervisé. - IMT Mines Albi-Carmaux Accéder directement au contenu
Communication Dans Un Congrès Année : 2021

Extraction générique de connaissances à partir de données textuelles et mesure de la performance des systèmes d’extraction de relations dans un contexte non supervisé.

Yohann Chasseray
Anne-Marie Barthe-Delanoë
Stéphane Negny

Résumé

Among the incoming challenges in the industrial domain and in the monitoring of industrial systems, the aggregation, synthesis and management of knowledge through ontological structures occupy an essential place. Existing knowledge extraction systems often use a supervised approach which rely on labelled data for which the annotation process is fastidious. This paper presents an unsupervised self-feeding rule-based approach for domain-independent ontology population from textual data. Moreover, the evaluation of such systems, performing knowledge extraction using natural language processing methods requires the use of performance indicators. The indicators usually used in such evaluations have limitations in the specific context of knowledge extraction for unsupervised ontology population. Thus, the definition of new evaluation methods becomes a need arising from the singularity of the harvested data, especially when these are unlabelled. Hence, this article also proposes a method for measuring performance in a context where reference data and extracted data do not overlap optimally. The proposed evaluation method is based on the exploitation of data that serve as a reference but are not specifically linked to the data used for extraction, which makes it an original evaluation method.
Parmi les défis à venir dans le monde de l’industrie et dans le pilotage des systèmes industriels, l’agrégation, la synthèse et la gestion des connaissances au travers de structures ontologiques occupent une place primordiale. Beaucoup des systèmes d’extraction de connaissances actuels adoptent une approche supervisée, qui se base sur des données labellisées dont le processus d’annotation est long et fastidieux. Cet article présente une approche par les règles non supervisée, auto-alimentée et indépendante du domaine pour la population d’ontologie à partir de données textuelles. Par ailleurs, l’évaluation de tels systèmes, réalisant de l’extraction de connaissances par les méthodes de traitement automatique du langage, requiert l’utilisation d’indices de performance. Dans le cadre particulier de la population d’ontologie non supervisée, les indices habituellement utilisés pour réaliser ces évaluations présentent des limites dues notamment à l’absence de données annotées. Cet article propose donc également une méthode de mesure des performances dans un contexte où les données de référence et les données extraites ne se recouvrent intrinsèquement pas de manière optimale. Le mode d’évaluation proposé s’appuie sur l’exploitation de données faisant office de références mais qui ne sont pas spécifiquement liées aux données sur lesquelles est réalisée l’extraction, ce qui en fait sa particularité.
Fichier principal
Vignette du fichier
Extraction-generique-de-connaissances-a-partir-de-donnees-textuelles.pdf (1.17 Mo) Télécharger le fichier
Origine : Fichiers éditeurs autorisés sur une archive ouverte

Dates et versions

hal-03331800 , version 1 (02-09-2021)

Identifiants

  • HAL Id : hal-03331800 , version 1

Citer

Yohann Chasseray, Anne-Marie Barthe-Delanoë, Jean-Marc Le Lann, Stéphane Negny. Extraction générique de connaissances à partir de données textuelles et mesure de la performance des systèmes d’extraction de relations dans un contexte non supervisé.. CIGI-Qualita21 : 14ème Conférence Internationale Génie Industriel QUALITA, May 2021, Grenoble (à distance), France. pp.660-668. ⟨hal-03331800⟩
120 Consultations
134 Téléchargements

Partager

Gmail Facebook X LinkedIn More