Stages

Propositions de stage

Dans le cadre des formations organisées - en particulier les cours FLTR2983 et 2984, l'Institut de Langage & Communication propose des stages au sein des différents centres de recherche (VALIBEL, CENTAL, CECL, COMU, ...). Les propositions de stage seront affichées au plus tard le 1er octobre de chaque année.

Les étudiants remplissent le formulaire adéquat avant le 15 octobre s'ils désirent effectuer un stage au premier semestre, avant le 15 mars s'ils désirent effectuer un stage au second semestre.


Stage VALIBEL - Discours et Variation : mise en commun des ressources bibliographiques au sein d'un centre de recherche

L'objectif de ce stage est de réfléchir au moyen de partager les ressources et les références bibliographiques entre les différents membres d'une équipe de recherche. Dans la mesure où l'accès aisé à cette information est crucial, il s'agit d'un enjeu important pour les chercheurs. Au cours du stage, l'étudiant(e) sera invité(e) (i) à identifier les besoins du Centre Valibel - Discours et Variation en termes de partage des informations bibliographiques, (ii) à tester des logiciels pouvant aider à rencontrer ces besoins, (iii) à proposer une bibliographie partagée et structurée autour du champ de l'analyse du discours.

Contact: Philippe Hambye


Stage VALIBEL - Discours et Variation : première analyse de deux enquêtes sociolinguistiques menées auprès d'adolescents de milieu populaire

L'objectif du stage est de réaliser un premier survol de données recueillies dans le cadre d'une enquête sociolinguistique ethnographique menée en milieu scolaire auprès de jeunes adolescents. Un questionnaire sur leur répertoire lexical et un test sur leur consciences des normes d'usage du français écrit ont été soumis aux élèves. Les données ont ensuite été encodées sur support informatique. Au cours du stage, l'étudiant(e) sera invité(e) à effectuer une première analyse des données en utilisant des logiciels adéquats (Excel / Lexico 3) et à identifier les résultats qui paraissent intéressants.

Contact: Philippe Hambye


Stage VALIBEL - Discours et Variation : annotations de données orales

L'objectif du stage est de se familiariser avec les techniques permettant l'exploitation linguitique de corpus oraux. Les activités ci-dessous peuvent se combiner au sein d'un même stage:

Annotation prosodique de corpus oraux
Préparation de transcriptions orthographiques pour leur consultation dans une base de données en ligne [moca]
Rédaction d'un tutoriel pour la base de données en ligne [moca]
Alignement de transcriptions orthographiques sur le son

Contact: Anne Catherine Simon


Stage VALIBEL - Discours et Variation / CENTAL

L'objectif du stage et de développer des scripts (PERL) pour exploiter des annotations linguistiques parallèles effectuées dans le logiciel Praat et les exporter sous différents formats (texte annoté, tableurs XLS, graphiques, etc.)

Contact: Anne Catherine Simon


Stage VALIBEL - Discours et Variation : Identification du dicours pseudo-oral

L'objectif du stage est de qualifier l'environnement linguistique de séquences en discours direct, indirect, rapporté (réflexion théorique et opérationalisation des critères) et de proposer une extraction semi-automatique de structures linguistiques identifiées (marqueurs discursifs) dans les séquences pseudo-oralisées de grands corpus (diachroniques et synchroniques), en vue d'une analyse quantitative et qualitative.

Contact: Liesbeth Degand


Stage VALIBEL - Discours et Variation : Exploration de la périphérie droite

L'objectif du stage est de mettre en oeuvre une série de procédures permettant l'extraction semi-automatique des marqueurs discursifs en périphérie droite de l'énoncé, à l'oral et à l'écrit en cue d'une analyse qualitative et quantitative de ces données.

Contact: Liesbeth Degand


Stage VALIBEL - Discours et Variation: Annotation implication du locuteur dans presse en ligne

L'objectif du stage est de se familiariser avec l'outil d'annotation gloz (développé dan le cadre du projet ANODIS à Toulouse-Le Mirail) et de proposer une série de critères pour annoter l'implication du locuteur dans la presse en ligne. Ce stage se fera en collaboration étroite avec Anne Küppers et Mai Ho-Dac.

Contact: Liesbeth Degand ou Anne Catherine Simon


 
Stage VALIBEL - Discours et Variation : annotations de données audio et vidéo
 
L'objectif du stage est de se familiariser avec les techniques permettant l'exploitation linguistique de corpus multimodaux (ici, le corpus « CorpAGEst – Corpus sur la mimogestualité des personnes âgées »).
 
Les activités ci-dessous peuvent se combiner au sein d'un même stage:
 
-      Montage de fichiers vidéo (avec Adobe Premiere Elements) et audio (avec Audacity)
-      Alignement texte/son des données orales, avec évaluation des outils disponibles actuellement sur le marché (outils : Praat, EasyAlign, SPPAS)
-      Etude de l’impact des choix opérés lors de la phase de transcription/normalisation orthographique sur l’efficacité des aligneurs texte/son (au niveau du mot) (EasyAlign, SPPAS)
-      Evaluation et comparaison d’outils d’annotation de données audiovisuelles (ELAN et Exmaralda)
-      Exploration des ressources/normes disponibles actuellement pour l’archivage pérenne de données et/ou de métadonnées issues de corpus multimodaux (OLAC, ARBIL, IMDI)
 
Contact: Catherine BOLLY

 
 

 
Stage VALIBEL - Discours et Variation : constitution d’un corpus oral sur le langage des personnes âgées
 
L’objectif du stage est de participer à la création du corpus « Corpage – Corpus de référence sur le langage des personnes âgées » (100 sujets ; âge > 75 ans ; 144h d’enregistrement audio ; 1,5 Million de mots), en contribuant aux phases suivantes de la constitution du corpus:
-      Normalisation : mise aux normes Valibel des transcriptions orthographiques
-      Anonymisation des données
-      Archivage des données audio et/ou des métadonnées (date d’enregistrement, âge du locuteur, langue maternelle, durée de l’entretien, etc.)
 
Contact: Catherine BOLLY 
 

  
Stage VALIBEL - Discours et Variation : formation au recueil de données audio et vidéo sur le terrain
 
L’objectif du stage est de se familiariser avec la méthode de recueil de données langagières sur le terrain, prenant en compte à la fois l’objectif de recherche et les contraintes techniques inhérentes au recueil de données audiovisuelles (caméra, enregistreur, luminosité, disposition spatiale, etc.). Ce stage s’inscrit dans la phase de constitution du corpus « CorpAGEst – Corpus sur la mimogestualité des personnes âgées ». L’étudiant sera amené à diriger un (ou plusieurs) entretiens avec une personne âgée à partir d’un guide d’entretien prédéfini.
 
Contact: Catherine BOLLY

 
 

Stage CECL (https://www.uclouvain.be/en-cecl.html : Extraction d’un vocabulaire thématique à partir d’un corpus web : le domaine de l’automobile
Prérequis : un cours d’initiation à la linguistique de corpus (LGERM2829)
Langue : anglais
L'étudiant(e) devra d’abord constituer un corpus thématique portant sur le domaine de l’automobile en anglais. Pour ce faire, il/elle utilisera un outil de constitution de corpus à partir de pages web.
Dans un deuxième temps, l’étudiant/e utilisera la méthode des keywords/key clusters pour extraire des mots et séquences de mots qu’il analysera en contexte pour identifier le vocabulaire potentiellement utile à toute personne devant rédiger un texte dans le domaine de l’automobile.
L’objectif du stage est de mettre en évidence les avantages et inconvénients de corpus ‘web’ pour la constitution de lexiques thématiques et l’aide à la rédaction.
Contact : Sylviane Granger et Magali Paquot
 
_________________________________________________________________________________________________________________
Stage CECL ( https://www.uclouvain.be/en-cecl.html : Extraction d’un vocabulaire thématique à partir d’un corpus web : le domaine des cosmétiques
Prérequis : un cours d’initiation à la linguistique de corpus (LGERM2829)
Langue : anglais
L'étudiant(e) devra d’abord constituer un corpus thématique portant sur le domaine des cosmétiques en anglais. Pour ce faire, il/elle utilisera un outil de constitution de corpus à partir de pages web.
Dans un deuxième temps, l’étudiant/e utilisera la méthode des keywords/key clusters pour extraire des mots et séquences de mots qu’il analysera en contexte pour identifier le vocabulaire potentiellement utile à toute personne devant rédiger un texte dans le domaine des cosmétiques.
L’objectif du stage est de mettre en évidence les avantages et inconvénients de corpus ‘web’ pour la constitution de lexiques thématiques et l’aide à la rédaction.
Contact : Sylviane Granger et Magali Paquot

 ____________________________________________________________________________________________________________

Stage CECL : Constitution d'un corpus d'éditoriaux anglais et français en vue d’une analyse contrastive des 'lexical bundles'
L’objectif du stage est d’élargir le corpus d’éditoriaux Mult-Ed http://www.uclouvain.be/en-cecl-multed.html en y rajoutant des articles en anglais et en français et de procéder à une analyse contrastive visant à mettre au jour les principales similitudes et différences entre les deux langues au niveau de l’utilisation des marqueurs de cohésion et d’attitude (‘organizational and stance bundles’ Biber et al. 1999).
Contact : Sylviane Granger & Marie-Aude Lefer
 
Stage CECL : Constitution d'un corpus de traduction journalistique anglais><français en vue d’une analyse des 'lexical bundles'
L’objectif du stage est d’élargir le corpus PLECI http://www.uclouvain.be/en-cecl-pleci.html
en y rajoutant des articles de presse anglais><français (Courrier International, Monde Diplomatique) et d’analyser les principales séquences récurrentes (‘lexical bundles’ Biber et al. 1999) afin de mettre au jour les équivalences de traduction en langue source et langue cible.
Contact : Sylviane Granger & Marie-Aude Lefer
 
Stage CECL : Analyse contrastive des mots dérivés dans les débats du parlement européen
L’objectif du stage est de faire une analyse multilingue des mots dérivés (préfixés et/ou suffixés) sur la base du corpus de traduction Europarl (transcriptions des débats du Parlement Européen) afin de vérifier l’impact de la langue source sur l’utilisation des affixes dérivationnels en langue cible. L’étudiant(e) sélectionnera au moins deux langues sources et une langue cible parmi les langues suivantes : anglais, allemand, néerlandais, français, espagnol et italien.
Contact : Marie-Aude Lefer

________________________________________________________________________________________________________________

Stage CECL (faire lien vers < https://www.uclouvain.be/en-cecl.html>) : La compétence phraséologique des apprenants de l’anglais : Comparaison de méthodes d’analyse

Prérequis : un cours d’initiation à la linguistique de corpus (LGERM2829)
Langue : anglais
La phraséologie est un élément essentiel de l’usage idiomatique d’une langue (collocations telles que ‘make a decision’ ou ‘hard work’, séquences figées comme ‘is discussed in’ ou ‘the extent to which’) et joue un rôle important dans l’acquisition d’une langue étrangère. Les recherches actuelles portant sur le langage préfabriqué sont caractérisées par une tension entre plusieurs types d’approches linguistiques.
L’objectif du stage est d’analyser la phraséologie dans un corpus de textes produits par des apprenants de l’anglais langue étrangère au moyen de 2 méthodes automatiques, i.e. l’extraction de ‘séquences récurrentes’ (lexical bundles) et l’extraction de ‘collocations’ (dans le sens purement quantitatif du terme), et de comparer les résultats obtenus.
Contact : Magali Paquot
 
Stage CECL (faire lien vers < https://www.uclouvain.be/en-cecl.html>) : Les indices de complexité linguistique comme outil de description de la production d’apprenants de l’anglais langue étrangère
Prérequis : un cours d’initiation à la linguistique de corpus (LGERM2829)
Langue : anglais
L’étudiant/e devra analyser des textes produits par des apprenants de l’anglais langue étrangère au moyen d’indices de complexité linguistique proposés par l’outil Coh-Metrix.
Les résultats obtenus seront utilisés pour comparer :
(1) la production écrite de plusieurs populations d’apprenants (ex : apprenants francophones vs. néerlandophones de l’anglais)
(2) la production écrite des apprenants à travers les genres (texte argumentatif vs. travail de fin d’année)
L’objectif du stage est de mettre en évidence les forces et faiblesses des indices de complexité linguistique pour l’analyse de corpus d’apprenants.
Contact : Magali Paquot
 
 ____________________________________________________________________________________________________________
Stage CECL - Alignement texte-son d'un corpus d'anglais L2
 
L'objectif du stage est de procéder à l'alignement de transcriptions orthographiques sur le son de données issues du corpus LINDSEI (Louvain International Database of Spoken English Interlanguage). 
Pour ce faire, l'étudiant(e) devra comparer les outils disponibles sur le marché et sélectionner celui qui s'avérera être le plus efficace étant donné les caractéristiques du corpus et les exigences à respecter
lors de l'alignement (notamment la mesure automatique des temps de pause).
 
Contact: Gaëtanelle Gilquin

  __________________________________________________________________________________________________________

 CECL internship: Annotating pedagogical/teaching functions in a corpus of teacher talk (CoNNECT): focus on non-native teachers.
During his/her internship, the student will be annotating a corpus of teacher talk for pedagogical/teaching functions (e.g. reviewing, reteaching, presenting new content/skills, checking for understanding, providing feedback, organizing tasks, etc.).
CoNNECT is a Corpus of Native and Non-native EFL Classroom Teacher Talk. It contains the transcripts of native and non-native English lesson audio-recordings carried out in secondary education (classes ranging from A1 to B2 levels). During the internship, the student will be working on the non-native part of the corpus.
Contact person: Fanny Meunier


CECL internship: Annotating pedagogical/teaching functions in a corpus of teacher talk (CoNNECT): focus on native teachers.
During his/her internship, the student will be annotating a corpus of teacher talk for pedagogical/teaching functions (e.g. reviewing, reteaching, presenting new content/skills, checking for understanding, providing feedback, organizing tasks, etc.).
CoNNECT is a Corpus of Native and Non-native EFL Classroom Teacher Talk. It contains the transcripts of native and non-native English lesson audio-recordings carried out in secondary education (classes ranging from A1 to B2 levels). During the internship, the student will be working on the native part of the corpus.
Contact person: Fanny Meunier
 

 stage CENTAL – Traitement automatique du language : recherche de nouvelles variables pour la lisibilité des textes

 langue : français
compétences souhaitées : linguistique, psycholinguistique, informatique et TAL.
 
L'objectif de ce stage est relativement ouvert. Il s'insère dans le contexte de la lisibilité, un domaine qui vise à évaluer automatiquement la difficulté des textes pour un public de lecteurs particulier. Il s'agira d'identifier un nombre restreint de dimensions textuelles innovantes (ex. âge d'acquisition des mots, niveau de cohésion des textes, etc.) pertinentes pour prédire la difficulté des textes. Le stagiaire devra se baser des données expérimentales en psycholinguistique et sur des théories linguistiques pour implémenter ces variables au sein d'un modèle de lisibilité existant. Enfin, il devra évaluer l'apport de ces nouveles variables linguistiques au sein d'un modèle statistique de lisibilité.
Contact : Cédrick Fairon
 

 
stage CENTAL – Traitement automatique du language : le crowdsourcing comme source de données annotées en lisibilité
 
langue : français
compétences souhaitées : psycholinguistique, informatique et TAL.
 
L'objectif de ce stage est de mettre au point une approche de récoltes de données concernant la difficulté des textes qui soit basée sur le crowdsourcing. Il s'agit de réfléchir à une méthode d'annotation adaptée au paradigme du crowdsourcing, à la décliner sous un format attractif pour les utilisateurs (via la création de parcours progressifs, d'une modélisation de l'utilisateur, etc.). Il s'agira aussi d'implémenter ces principes théoriques dans l'interface de tests actuelles et de mettre en place des outils pour le traitement des données récoltées.
Contact : Cédrick Fairon
 

 
stage CENTAL – Traitement automatique du language : application des réseaux de neurones en lisibilité
 
langue : français
compétences souhaitées : aprentissage automatisé, réseaux de neurones, informatique et TAL.
 
Ce stage s'insère dans le contexte de la lisibilité, un domaine qui vise à évaluer automatiquement la difficulté des textes pour un public de lecteurs particulier. Cette évaluation repose généralement sur des modèles appris par apprentissage automatisé (ex. SVM; régression logistique). Récemment, des avancées ont été accomplies dans le domaine des réseaux de neurones (Deep Learning) et cette forme d'apprentissage pourrait constituer une solution au problème du manque crucial de données en lisibilité. L'objet de ce stage est donc d'explorer l'applicabilité de divers paradigmes d'apprentissage automatisé basés sur les réseaux de neurones à la lisibilité. 
Contact : Cédrick Fairon
  
 
 
stage CENTAL – Traitement automatique du language : lisibilité et simplification automatique de textes
 
langue : français
compétences souhaitées : TAL, linguistique, psycholinguistique
 
Ce stage est situé à la croisée de la lisibilité, un domaine qui vise à évaluer automatiquement la difficulté des textes pour un public particulier de lecteurs, et de la simplification automatique des textes. Lors de ce stage, l'étudiant aura l'opportunité d'étudier les possibilités d'employer les variables linguistiques classiquement utilisées dans les formules de lisibilité pour détecter les passages problématiques dans un texte en vue d'une simplification. Ensuite, il pourra entreprendre de développer un prototype web qui propose un diagnostic précis sur la difficulté des textes et sur une manière d'utiliser ce diagnostic pour la simplification de textes.
Contact : Cédrick Fairon
 
 
 
stage CENTAL – Traitement automatique du language : Intégration de la nouvelle orthographe dans PlatON
 
langue : français
compétences souhaitées : TAL, informatique, linguistique, plus particulièrement analyse morpho-syntaxique,
 
PlatON est un système d'apprentissage de l'orthographe assité par ordinateur. Il se présente sous la forme d'une plateforme en ligne, qui intègre un système de TAL permettant la correction automatique de dictées. Actuellement, la plateforme PlatON n'accepte pas la nouvelle orthographe (réforme orthographique de 1990). Or, dans les programmes d'enseignement, il est conseillé d'accepter les 2 orthographes (ancienne et nouvelle). Le CENTAL dispose cepedant d'une application Recto/Verso qui permet de convertir un texte de l'ancienne orthographe vers la nouvelle orthographe. Sur cette base, l'objectif du stage serait d'autoriser les deux orthographes lors de la correction de la dictée.
Contact : Cédrick Fairon
 

 
stage CENTAL – Traitement automatique du language : Correction automatique des erreurs dans PlatON
 
langue : français
compétences souhaitées : TAL, informatique, linguistique, plus particulièrement analyse morpho-syntaxique,
 
PlatON est un système d'apprentissage de l'orthographe assité par ordinateur. Il se présente sous la forme d'une plateforme en ligne, qui intègre un système de TAL permettant la correction automatique de dictées. Actuellement, quelques grandes catégories d'erreurs sont détectées dans Platon : erreurs lexicales, grammaticales, ponctuation etc. L'objectif du stage serait de raffiner la classification des erreurs sur base de classifications existantes (par exemple: erreurs d'accord du participe passé avec avoir/être, confusion d'homophones, etc.). Le stage se composerait d'une partie théorique – quelle classification est pertinente du point de vue de l'apprentissage – et d'une partie pratique, à savoir l'implémentation de règles pour détecter ces erreurs.
Contact : Cédrick Fairon
| 21/02/2013 |