|
|
Seminars> Cental seminars
The seminars usually take place on Friday afternoon, but the time may vary, please check below. If you wish to be informed by email for the seminars, please complete this form.
SECOND TERM 22 février 2013 de 12h45 à 14h La rédaction est une tâche complexe, certainement lorsqu’il s’agit de rédiger un texte en langue étrangère. Alors que, pendant très longtemps, le dictionnaire (de traduction de préférence) et la grammaire constituaient les seuls ouvrages de référence disponibles, il en est tout autrement aujourd’hui. Ainsi, nous disposons actuellement d’outils lexicographiques et de correcteurs très performants. Malheureusement, les premiers sont trop souvent ignorés du grand public et les seconds oublient un peu trop les apprenants et leurs problèmes spécifiques. 1er mars 2013 de 13h à 14h Pour faire face à la grande quantité de données à laquelle elles sont confrontées, les entreprises font de plus en plus souvent appel à des solutions de gestion, structuration et interrogation de l'information. Le moteur de recherche S³ (Semantic Search Solutions), développé au sein de l'entreprise Knowbel-Earlytracks, se situe dans une démarche d'accès efficace aux données textuelles. La solution que nous proposons se base sur un enrichissement automatique du texte par des informations sémantiques précises et structurées. Durant ce séminaire, nous aurons l'occasion de présenter les technologies que nous développons pour organiser l'information et pour l'interroger d'une manière rapide et pertinente. Cette explication technique sera illustrée par des exemples concrets et des démonstrations de l'outil. 29 mars 2013 de 13h à 14h Les premières tentatives de création de « machines à enseigner » datent du début du 19e siècle. Elles visent « l’automatisation », partielle ou complète, de l’enseignement/apprentissage des langues, comme d’autres matières. L’avènement de l’informatique, et en particulier de la micro-informatique, a permis la création de machines pouvant apporter aux enseignants une aide appréciable pour leur tâche. Ces machines constituent actuellement la pièce centrale de tout système d’auto-formation, comme, souvent, de l’enseignement à distance. Nous présentons durant ce séminaire l’évolution technologique de ces machines ainsi que leurs fondements théoriques, en se focalisant plus particulièrement sur les systèmes dédiés à l’enseignement/apprentissage des langues. Nous évoquerons leurs insuffisances et les causes pour nombre d’entre elles. Le recours aux procédures et résultats du traitement automatique des langues peut apporter solution à bon nombre d’insuffisances de ces systèmes. Nous examinerons l’apport du TAL, les limites de cet apport, ainsi que sa mise en œuvre appropriée. Nous exposerons, enfin, les solutions proposées par le laboratoire LIDILEM et nous présenterons des aspects de la plateforme d’enseignement/apprentissage des langues MIRTO qui en est issue.
Mardi 16 avril 2013 de 12h45 à 14h Several automatic phonetic alignment tools have been proposed in the literature. They usually rely on pre-trained speaker-independent models to align new corpora. Their drawback is that they cover a very limited number of languages and might not perform properly for different speaking styles. This seminar presents a new tool for automatic phonetic alignment available online: Train&Align. Its specificity is that it trains the models directly on the corpus to align, which makes it applicable to any language and speaking style. Experiments on three corpora show that it provides results comparable to other existing tools. It also allows the tuning of some training parameters. The use of tied-state triphones, for example, shows further improvement of about 1.5% for a 20 ms threshold. A manually-aligned part of the corpus can also be used as bootstrap to improve the model quality. Alignment rates were found to significantly increase, up to 20%, using only 30 seconds of bootstrapping data.
26 avril 2013 de 14h à 15h15 L'intérêt pour l'étude du lexique n'est pas nouveau. Au fil du temps, il a suscité différents questionnements dans des disciplines variées telles que la philologie, l'enseignement des langues, la lexicographie et, bien entendu, la lexicologie. Avec le développement du traitement automatique des langues (TAL) et l'accessibilité de grands volumes de données, on a vu apparaître un grand nombre de ressources linguistiques avec des finalités et des granularités diverses. Dans cet exposé, nous nous intéresserons à ces ressources et plus particulièrement aux lexiques en tant que recueils structurés d'unités lexicales. Nous les aborderons sous plusieurs aspects (création, enrichissement, évaluation) et nous en montrerons quelques exemples. Nous soutiendrons, pour conclure, que l'interaction entre la linguistique et le TAL passe de manière sine qua non par le(s) lexique(s) : ils sont, ainsi, au cœur des rapports entre ces deux disciplines.
24 mai 2013 de 11h à 12h00 With increasing adoption of electronic health records (EHRs), there is an opportunity to use the free-text portion of EHRs for pharmacovigilance. We present novel methods that annotate the unstructured clinical notes and transform them into a deidentified patient-feature matrix encoded using medical terminologies. We demonstrate the use of the resulting high-throughput data for detecting drug-adverse event associations and adverse events associated with drug-drug interactions. We show that these methods flag adverse events early (in most cases before an official alert), allow filtering of spurious signals by adjusting for potential confounding, and compile prevalence information. We argue that analyzing large volumes of free-text clinical notes enables drug safety surveillance using a yet untapped data source. Such data mining can be used for hypothesis generation and for rapid analysis of suspected adverse event risk.
FIRST TERM Vendredi 14 décembre de 9h30 à 10h30 Max De Wilde (Département des Sciences de l’Information et de la Communication, ULB) Les institutions culturelles, que ce soient les bibliothèques, les centres d'archives ou les musées, disposent souvent de peu de moyens financiers pour valoriser leurs collections. Les métadonnées encodées par des générations de documentalistes restent ainsi peu exploitées, leur format non-structuré les rendant difficile à traiter de manière automatisée. Dans ce contexte, les techniques d'extraction d'information, et particulièrement la reconnaissance d'entités nommées, offrent de nouvelles perspectives pour les gestionnaires de collections, leur permettant d'enrichir le contenu sémantique de leur données à bas coût. Le projet Free Your Metadata vise à encourager les institutions culturelles à tirer parti de cette technologie, parmi d'autres, dans le but d'interconnecter leurs métadonnées existantes avec celles d'autres collections, s'intégrant ainsi dans la mouvance du linked data. Dans le cadre de ce séminaire, je présenterai les premiers résultats d'une étude de cas réalisée sur des données du Smithsonian Cooper-Hewitt National Design Museum à New York, ainsi que les futures possibilités et limites de cette approche pour le secteur culturel. Vendredi 30 novembre (14h) This talk will be about the extraction of knowledge from text (language understanding), one of the central problems in Natural Language Processing. There are two well-known types of knowledge that you may want to learn from text: objective knowledge (the who, what, where, when type of information) and subjective knowledge (what does someone feel / think about something). After a brief introduction to the state of the art in these two areas, I will introduce a third type of information that can be extracted from text: profiles of the author of the text. This type of analysis (also called computational stylometry) detects information about the author of a text. Apart from identifying the author (authorship attribution), which has applications in forensic studies (who wrote this blackmail e-mail or suicide letter?) and literary scholarship, these techniques are also increasingly being used to extract information about psychological properties of the authors (mental health, personality type), and sociological properties (age, gender, education level, region). I will explain how these new research areas open up exciting new potential applications in areas as diverse as marketing, medical diagnosis, and monitoring social networks for illegal activities. Vendredi 23 novembre de 14h à 15h15 Vendredi 9 novembre de 15h à 16h15
|