Saturday, December 15, 2012

3. Données linguistiques (ou bases d'informations textuelles)

Ces données linguistiques peuvent être des textes écrits, qui sont des suites de phrases constituant un tout informatif cohérent (ex. : une notice d’entretien, la description d’un appareil, ...), ou bien des dialogues écrits ou oraux, ou encore des unités linguistiques de taille inférieure à ce que l’on appelle habituellement des textes (ex. : des phrases, des énoncés, des groupes de mots ou simplement des mots isolés).

Par abus de langage, on emploie désormais le terme de texte pour désigner l’un de ces types de données linguistiques, qui est l’objet des traitements automatiques.

Un texte doit donc pouvoir être écrit comme un ensemble de formes (ou de correspondances entre formes et sens) régi par des règles explicables : les règles de la langue.
4. Automatique

Est dit automatique, un traitement qui opère par des moyens "mécaniques" (du grec mêkhanê : machine), par opposition à un traitement manuel ou instrumental opéré par l’humain.

La machine qui est utilisée dans le domaine du TAL, est un ordinateur c'est-à-dire une machine conçue pour effectuer des calculs : cela suppose donc que l’on soit capable de ramener les manipulations sur les données linguistiques à des calculs.

Un traitement automatique est une suite d’actions ou calculs à faire effectuer par la machine dans un certain ordre chronologique, c'est-à-dire un programme.

L'automatisation du traitement peut être totale ou partielle :

Automatisation totale = entièrement automatique.
Automatisation partielle = assistée par ordinateur, l’homme intervient.

Contraintes : Traiter un objet linguistique de façon automatique, implique un certain nombre de contraintes dans la description même de cet objet : il faut pouvoir arriver à formuler de façon totalement explicite et cohérente des ensembles de règles caractérisant le fonctionnement du texte.

Il faut donc savoir observer l’objet pour en dégager des régularités généralisables, et savoir exprimer ces régularités en éliminant le flou, l'implicite et le non-dit. Cela impose aux descriptions linguistiques, des exigences de rigueur, de systématicité et de cohérence tout à fait salutaires.

En conclusion : Les progrès en matière de traitements automatiques des langues viendront de nos capacités à décrire les mécanismes de la langue de façon plus fine.
6. Traitement

Traiter un objet en TAL évoque l’idée d’agir sur lui, en le manipulant, en le transformant, voire en le créant. Il faut donc disposer d’outils et de techniques de traitement, en matière de TAL qui sont de trois ordres : linguistiques, formels et informatiques. En toute rigueur théorique, il convient de distinguer la description des connaissances (notamment linguistiques), l’expression de ces connaissances dans un formalisme et l’élaboration de techniques et de stratégies informatiques de traitement effectif.
7. En résumé

Le traitement automatique des langues (TAL) a pour objectif de traiter des données linguistiques (textes) exprimées dans une langue dite "naturelle".

Pour pouvoir traiter automatiquement ces données, il faut être capable d’expliciter les règles de la langue, de les représenter dans des formalismes opératoires et calculables, et les implémenter à l’aide de programmes.

L’élaboration de systèmes plus performants passe donc par le détour de recherches fondamentales, en matière notamment de compréhension de texte et de génération de texte. Dans ces deux perspectives, le traitement de la langue porte non seulement sur les formes, mais aussi sur le contenu ; il doit mettre en oeuvre des connaissances linguistiques très complètes (relevant des niveaux de la morphologie, de la syntaxe, de la sémantique et de la pragmatique), ainsi que des connaissances d’univers. De telles recherches revêtent nécessairement un caractère pluridisciplinaire, et doivent associer étroitement linguistes et informaticiens.

No comments:

Post a Comment