|
|
Séminaires du Cental
Chaque séminaire du CENTAL a pour but de réunir des enseignants, des étudiants et des chercheurs (du monde académique ou de l'industrie) intéressés par le traitement automatique de langues et se déroule dans le local C142 du CENTAL (Collège Erasme). Ces séminaires sont gratuits et ouverts à tous. Les séminaires ont généralement lieu le vendredi sur le temps de midi, mais les horaires voire les jours peuvent être variables. Veillez à bien consulter les dates et horaires ci-dessous pour chaque séminaire. Si vous souhaitez être informé par courrier électronique des séminaires que nous organisons, nous vous proposons de remplir notre formulaire.
DEUXIEME QUADRIMESTRE 22 février 2013 de 12h45 à 14h La rédaction est une tâche complexe, certainement lorsqu’il s’agit de rédiger un texte en langue étrangère. Alors que, pendant très longtemps, le dictionnaire (de traduction de préférence) et la grammaire constituaient les seuls ouvrages de référence disponibles, il en est tout autrement aujourd’hui. Ainsi, nous disposons actuellement d’outils lexicographiques et de correcteurs très performants. Malheureusement, les premiers sont trop souvent ignorés du grand public et les seconds oublient un peu trop les apprenants et leurs problèmes spécifiques. 1er mars 2013 de 13h à 14h Pour faire face à la grande quantité de données à laquelle elles sont confrontées, les entreprises font de plus en plus souvent appel à des solutions de gestion, structuration et interrogation de l'information. Le moteur de recherche S³ (Semantic Search Solutions), développé au sein de l'entreprise Knowbel-Earlytracks, se situe dans une démarche d'accès efficace aux données textuelles. La solution que nous proposons se base sur un enrichissement automatique du texte par des informations sémantiques précises et structurées. Durant ce séminaire, nous aurons l'occasion de présenter les technologies que nous développons pour organiser l'information et pour l'interroger d'une manière rapide et pertinente. Cette explication technique sera illustrée par des exemples concrets et des démonstrations de l'outil. 29 mars 2013 de 13h à 14h Les premières tentatives de création de « machines à enseigner » datent du début du 19e siècle. Elles visent « l’automatisation », partielle ou complète, de l’enseignement/apprentissage des langues, comme d’autres matières. L’avènement de l’informatique, et en particulier de la micro-informatique, a permis la création de machines pouvant apporter aux enseignants une aide appréciable pour leur tâche. Ces machines constituent actuellement la pièce centrale de tout système d’auto-formation, comme, souvent, de l’enseignement à distance. Nous présentons durant ce séminaire l’évolution technologique de ces machines ainsi que leurs fondements théoriques, en se focalisant plus particulièrement sur les systèmes dédiés à l’enseignement/apprentissage des langues. Nous évoquerons leurs insuffisances et les causes pour nombre d’entre elles. Le recours aux procédures et résultats du traitement automatique des langues peut apporter solution à bon nombre d’insuffisances de ces systèmes. Nous examinerons l’apport du TAL, les limites de cet apport, ainsi que sa mise en œuvre appropriée. Nous exposerons, enfin, les solutions proposées par le laboratoire LIDILEM et nous présenterons des aspects de la plateforme d’enseignement/apprentissage des langues MIRTO qui en est issue.
Mardi 16 avril 2013 de 12h45 à 14h Plusieurs outils d'alignement phonétique automatique de corpus oraux sont actuellement disponibles. Ils utilisent, généralement, des modèles indépendants du locuteur pour aligner de nouveaux corpus. Leur désavantage est qu'ils couvrent ainsi un nombre très limité de langues et fournissent parfois un alignement de piètre qualité quand ils sont appliqués sur différents styles de parole. Ce séminaire présente un nouvel outil d'alignement phonétique automatique disponible en ligne: Train&Align. Sa spécificité est qu'il entraîne les modèles directement sur le corpus à aligner, ce qui le rend applicable à toutes les langues et tous les styles de parole. Des tests effectués sur trois corpus montrent qu'il produit un alignement de qualité comparable aux autres outils d'alignement. Il permet également d'optimiser certains paramètres d'entraînement. L'utilisation de modèles dépendant du contexte phonétique, par exemple, permet une amélioration d'environ 1.5% avec un seuil de tolérance de 20 ms. Une partie manuellement alignée du corpus peut également être utilisée afin d'améliorer la qualité des modèles. Les tests montrent que les taux d'alignement augmentent drastiquement, jusqu'à 20%, quand 30 secondes de corpus aligné manuellement sont utilisées.
26 avril 2013 de 14h à 15h15 L'intérêt pour l'étude du lexique n'est pas nouveau. Au fil du temps, il a suscité différents questionnements dans des disciplines variées telles que la philologie, l'enseignement des langues, la lexicographie et, bien entendu, la lexicologie. Avec le développement du traitement automatique des langues (TAL) et l'accessibilité de grands volumes de données, on a vu apparaître un grand nombre de ressources linguistiques avec des finalités et des granularités diverses. Dans cet exposé, nous nous intéresserons à ces ressources et plus particulièrement aux lexiques en tant que recueils structurés d'unités lexicales. Nous les aborderons sous plusieurs aspects (création, enrichissement, évaluation) et nous en montrerons quelques exemples. Nous soutiendrons, pour conclure, que l'interaction entre la linguistique et le TAL passe de manière sine qua non par le(s) lexique(s) : ils sont, ainsi, au cœur des rapports entre ces deux disciplines.
24 mai 2013 de 11h à 12h00 With increasing adoption of electronic health records (EHRs), there is an opportunity to use the free-text portion of EHRs for pharmacovigilance. We present novel methods that annotate the unstructured clinical notes and transform them into a deidentified patient-feature matrix encoded using medical terminologies. We demonstrate the use of the resulting high-throughput data for detecting drug-adverse event associations and adverse events associated with drug-drug interactions. We show that these methods flag adverse events early (in most cases before an official alert), allow filtering of spurious signals by adjusting for potential confounding, and compile prevalence information. We argue that analyzing large volumes of free-text clinical notes enables drug safety surveillance using a yet untapped data source. Such data mining can be used for hypothesis generation and for rapid analysis of suspected adverse event risk.
PREMIER QUADRIMESTRE Vendredi 14 décembre de 9h30 à 10h30 Max De Wilde (Département des Sciences de l’Information et de la Communication, ULB) Les institutions culturelles, que ce soient les bibliothèques, les centres d'archives ou les musées, disposent souvent de peu de moyens financiers pour valoriser leurs collections. Les métadonnées encodées par des générations de documentalistes restent ainsi peu exploitées, leur format non-structuré les rendant difficile à traiter de manière automatisée. Dans ce contexte, les techniques d'extraction d'information, et particulièrement la reconnaissance d'entités nommées, offrent de nouvelles perspectives pour les gestionnaires de collections, leur permettant d'enrichir le contenu sémantique de leur données à bas coût. Le projet Free Your Metadata vise à encourager les institutions culturelles à tirer parti de cette technologie, parmi d'autres, dans le but d'interconnecter leurs métadonnées existantes avec celles d'autres collections, s'intégrant ainsi dans la mouvance du linked data. Dans le cadre de ce séminaire, je présenterai les premiers résultats d'une étude de cas réalisée sur des données du Smithsonian Cooper-Hewitt National Design Museum à New York, ainsi que les futures possibilités et limites de cette approche pour le secteur culturel. Vendredi 30 novembre (14h) This talk will be about the extraction of knowledge from text (language understanding), one of the central problems in Natural Language Processing. There are two well-known types of knowledge that you may want to learn from text: objective knowledge (the who, what, where, when type of information) and subjective knowledge (what does someone feel / think about something). After a brief introduction to the state of the art in these two areas, I will introduce a third type of information that can be extracted from text: profiles of the author of the text. This type of analysis (also called computational stylometry) detects information about the author of a text. Apart from identifying the author (authorship attribution), which has applications in forensic studies (who wrote this blackmail e-mail or suicide letter?) and literary scholarship, these techniques are also increasingly being used to extract information about psychological properties of the authors (mental health, personality type), and sociological properties (age, gender, education level, region). I will explain how these new research areas open up exciting new potential applications in areas as diverse as marketing, medical diagnosis, and monitoring social networks for illegal activities. Vendredi 23 novembre de 14h à 15h15 Vendredi 9 novembre de 15h à 16h15
|