Stage – Machine learning et Information Retrieval

Date

18/12/2017

Service

Type de contrat

Stage

L’Argus de la Presse - Groupe Cision doit répondre au quotidien aux enjeux industriels du traitement de l’information à grande échelle.

Pour cela elle déploie des systèmes de gestion, de collecte et d’analyse de données structurées et non structurées à grande échelle et des outils de veille et recherche d’information ad hoc.

L’Argus utilise pour cela un certain nombre de technologies :

  • technologies symboliques et numériques pour l’apprentissage automatique à partir de données
  • fouille de données
  • moteur de recherche texte
  • traitement automatique du langage.

Missions :

La société lance en 2018 une nouvelle étude afin de challenger ces technologies dans un processus d’amélioration continue.

Dans une démarche d’innovation, la mission consiste à :

- collaborer aux travaux d’étude, de documentation, de conception et de mise en œuvre des Proof of Concept jusqu’à la définition des meilleurs scénarios de déploiement en situation réelle.

Ces travaux seront menés par une équipe composée des utilisateurs du système cible de recherche d’information, de spécialistes en sciences de l’information et des référents IT sur ces sujets.

 

Profil du candidat :

Titulaire d’un master 2 ou doctorat en linguistique et informatique ou en data science avec une composante extraction des connaissances.

Vous avez une expérience académique ou professionnelle sur les outils de base de l’intelligence artificielle :

  • technologies symboliques et numériques pour l’apprentissage automatique à partir de données
  • constituants d’un outil opérationnel de fouille de données
  • fonctionnement des moteurs de recherche, texte, image, parole, vidéo
  • traitement automatique du langage.

Vous êtes à l’aise avec la programmation et le développement de script et la manipulation d’algorithmes existants. Votre niveau en programmation vous permet de prototyper des solutions afin de les faire expérimenter en interne. Dans le cadre de vos travaux, vous serez amené(e) à identifier et à réutiliser des algorithmes existants pour les adapter à nos besoins métiers.

Formation et compétences requises :

Compétences informatiques :

Vous avez une connaissance académique ou pratique de certaines des solutions suivantes :

  • Outils ou algorithmes TAL : extraction d’entités nommées, catégorisation automatique, annotation de corpus, analyse du sentiment, etc. ;
  • Sensibilisation aux problématiques d'analyse morphologique et terminologique et formalismes et analyse syntaxiques
  • Algorithmes de classification non supervisée (Ward clustering, K-means…) ;
  • Algorithmes de classification supervisée (Extratrees, SVM, RNN…) ;
  • Base de graphes
  • Langage de programmation : Python ou autre langage objet récent

Le stage est à pourvoir dès que possible pour une durée de 4 à 6 mois.