v2.7.0 (3961)

Enseignement scientifique et technique - UC2-03 : Big Data et sciences du vivant : introduction aux méthodes de data science pour l'étude de données « -omiques »

Domaine > Modélisation Mathématique, Informatique et Physique.

Descriptif

Cette UC débutera par une présentation des données "-omiques" et de la façon dont elles ont été acquises. Nous présenterons ensuite les limites du modèle linéaire standard ainsi que des méthodes régularisées pour faire de la sélection de variables ou de la réduction de dimension dans les modèles linéaires en grande dimension (Lasso, Ridge, Elasticnet, PLS). Les algorithmes utilisés pour mettre en place ces méthodes et les techniques usuelles de choix de paramètres de régularisation seront également présentées (cross-validation, stability selection) ainsi que le package R glmnet. Nous expliquerons également comment étendre ces méthodes au cas multivarié et nous présenterons la notion de courbes ROC qui permet de comparer les performances de différentes méthodes. Nous présenterons également les arbres de régression et les arbres de modèles. Chaque méthode présentée sera appliquée aux données réelles associées au problème biologique de départ lors de séances en salle informatique à l'aide du logiciel R. Deux séances seront ensuite consacrées à l'interprétation biologique des résultats obtenus par les méthodes statistiques et/ou algorithmiques via la consultation de différentes bases de données. Quatre séances seront enfin réservées à la réalisation d'un travail personnel en binôme qui permettra aux étudiants d'appliquer les méthodes vues en cours à des données associées à de vraies questions biologiques et de préparer la restitution orale qui aura lieu à la fin de l'UC. Cette UC s'achèvera par les présentations orales des étudiants en binôme.

Objectifs pédagogiques

L'objectif de cette UC est de familiariser les étudiants avec des méthodes modernes de data science pour faire face à l'explosion des données de grande dimension en science du vivant en s'appuyant sur un exemple très concret : l'effet des variations de température lors de la maturation des semences sur leur qualité physiologique. A l'issue du module, les étudiants connaîtront les principes de base de ces méthodes, leurs applications et leurs limites, et seront capables de les mettre en oeuvre.

Diplôme(s) concerné(s)

UE de rattachement

Pour les étudiants du diplôme Ingénieur AgroParisTech

UC ouverte à tous. Aucun prérequis. Cet enseignement s'adresse particulièrement aux étudiants intéressés par les méthodes mathématiques et algorithmiques de gestion de données et leurs applications aux sciences du vivant.

Format des notes

Numérique sur 20

Pour les étudiants du diplôme Ingénieur AgroParisTech

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6
  • le rattrapage peut être demandé par l'étudiant si :
    6 ≤ note initiale < 12

Le coefficient de l'UE est : 2.5

Pour les étudiants du diplôme Parcours IAE forestier (ingénieur AgroSupDijon)

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6
  • le rattrapage peut être demandé par l'étudiant si :
    6 ≤ note initiale < 12

Le coefficient de l'UE est : 2.5

Pour les étudiants du diplôme Accueilli Athens

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6
  • le rattrapage peut être demandé par l'étudiant si :
    6 ≤ note initiale < 12

Le coefficient de l'UE est : 2.5

Programme détaillé

 

Mots clés

big data, data science, modélisation, données « -omiques », statistiques, méthodes régularisées

Support pédagogique multimédia

Oui

Veuillez patienter