2.12.8 (552)

Enseignement scientifique et technique - 2ASIMM-STATS : Sciences des données : apprentissage statistique

Domaine > Département Modélisation Mathématique, Informatique et Physique.

Descriptif

Ce cours propose une introduction aux principales techniques d'apprentissage statistique, supervisé et non supervisé, utilisées dans l'analyse des données multivariées.
Ces méthodes sont particulièrement adaptées pour des problèmes et applications en sciences du vivant.
Dans le cadre de l’apprentissage supervisé, qui vise à fournir des outils de modélisation et d’interprétation de données étiquetées, nous aborderons des méthodes de prédiction et de classification telles que le modèle linéaire, la régression logistique et la méthode des k plus proches voisins. Nous apprendrons à ajuster ces modèles aux données et à les utiliser pour faire des prédiction pour des nouvelles données non étiquetées. Une attention particulière sera portée à
l’évaluation des modèles prédictifs. Nous verrons également comment utiliser les tests statistiques dans les modèles statistiques pour évaluer la significativité des variables explicatives et guider l'interprétation des résultats.
Concernant l’apprentissage non supervisé, dont l’objectif est de faciliter l’exploration et la visualisation des données, le cours couvrira des techniques telles que le clustering (K-moyennes, classification ascendante hiérarchique) et la réduction de dimension (analyse en composantes principales). Ces méthodes permettent notamment de mettre en évidence des structures sousjacentes dans les données, telles que des groupes homogènes ou des directions principales de variation.
Les différentes méthodes seront illustrées sur de nombreux exemples de données en sciences du vivant.
Cette UE comprend des cours magistraux, des travaux dirigés et des travaux pratiques sur le logiciel R. Une autoformation pour acquérir les bases du langage R est proposée en début de semestre.
L’évaluation de l’UE se compose d’un partiel écrit et d’une soutenance orale d’un projet réalisé en groupes de trois étudiant·e·s.

Objectifs pédagogiques

À l’issue de cette UE, l’étudiant·e sera capable d’identifier et de comprendre les principales méthodes d’apprentissage supervisé et non supervisé utilisées en science des données. Il/elle saura en illustrer les spécificités, comparer leurs cas d’usage, et expliciter les notions statistiques sousjacentes.
Face à un jeu de données issu des sciences du vivant, il/elle saura mener une analyse exploratoire, formuler une question de recherche pertinente, choisir les méthodes appropriées pour y répondre et les mettre en œuvre à l’aide du logiciel R. Il/elle saura également utiliser des tests statistiques pour évaluer la significativité des paramètres estimés, interpréter les coefficients des modèls, évaluer la qualité de l’analyse statistique réalisée et proposer des pistes d’amélioration pour l’approche adoptée.

27.5 heures en présentiel (17 blocs ou créneaux)
réparties en:
  • Evaluation : 2
  • CM : 10.5
  • TP : 7.5
  • TD : 7.5

effectifs minimal / maximal:

/450

Diplôme(s) concerné(s)

UE de rattachement

Domaine disciplines/enjeux/objets

Système d'information - Modélisation.

Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)

Contenu du cours de statistique de la première année.

Pour les étudiants du diplôme Accueillis IAE forestiers (élèves de l'Institut Agro Dijon)

Contenu du cours de statistique de la première année.

Pour les étudiants du diplôme Ingénieur AgroParisTech

Contenu du cours de statistique de la première année.

Format des notes

Numérique sur 20

Pour les étudiants du diplôme Accueillis IAE forestiers (élèves de l'Institut Agro Dijon)

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6
  • le rattrapage peut être demandé par l'étudiant si :
    6 ≤ note initiale < 12

Le coefficient de l'UE est : 1.5

Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6
  • le rattrapage peut être demandé par l'étudiant si :
    6 ≤ note initiale < 12

Le coefficient de l'UE est : 1.5

Pour les étudiants du diplôme Ingénieur AgroParisTech

Vos modalités d'acquisition :

Examen de 2 heures

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6
  • le rattrapage peut être demandé par l'étudiant si :
    6 ≤ note initiale < 12

Le coefficient de l'UE est : 1.5

Programme détaillé

27.5 heures en présentiel (17 blocs ou créneaux) réparties en:
• CM : 10.5
• TD : 7.5
• TP : 7.5
• Evaluation : 2
• (Soutien facultatif : 12)

Mots clés

Apprentissage statistique supervisé et non-supervisé, modèle linéaire, estimation, test, prédiction, régression logistique, méthode des k plus proches voisins, analyse en composantes principales, kmoyennes, classification ascendante hiérarchique, applications aux données issues des sciences du vivant

Support pédagogique multimédia

Oui

Veuillez patienter