v2.11.0 (5515)

Enseignement scientifique et technique - UC6-31 : Le "machine learning" en pratique : du prétraitement des données à l'optimisation des performances

Domaine > Département Modélisation Mathématique, Informatique et Physique.

Descriptif

Le but de cette UE est de donner une vision applicative des outils de machine learning. Il s'agit donc d'un cours orienté sur les savoir-faire plus que sur les connaissances fondamentales. L'enjeu est ici de se focaliser sur les clés de performances opérationnelles dans les chaines de traitement de données:

1. Les données, leur acquisition, leurs spécificités, la manière de sélectionner certaines caractéristiques et de les normaliser. 

2. Le choix des problématiques et des modèles, la compréhension des hyper-paramètres de controle: régression, classification, approches linéaires ou non-linéaires, controle sur la complexité des modèles.

3. Evaluer les performances de manière fiable et optimiser les hyper-paramètres  

4. Analyser qualitativement les résultats obtenus, visualiser les données, comprendre les erreurs      

21 heures en présentiel
réparties en:
  • CM : 21

30 heures de travail personnel estimé pour l’étudiant.

effectifs minimal / maximal:

8/32

Diplôme(s) concerné(s)

UE de rattachement

domaines ParisTech

Système d'information - Modélisation.

Pour les étudiants du diplôme Ingénieur AgroParisTech

Bases de programmation en Python

Pour les étudiants du diplôme MASTER - BIOLOGIE INTEGRATIVE ET PHYSIOLOGIE

Bases de programmation en Python

Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)

Bases de programmation en Python

Pour les étudiants du diplôme Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)

Bases de programmation en Python

Format des notes

Numérique sur 20

Pour les étudiants du diplôme MASTER - BIOLOGIE INTEGRATIVE ET PHYSIOLOGIE

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 10

Le coefficient de l'UE est : 1

Pour les étudiants du diplôme Ingénieur AgroParisTech

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6

Le coefficient de l'UE est : 1.5

Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6

Le coefficient de l'UE est : 1.5

Pour les étudiants du diplôme Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)

Le rattrapage est autorisé (Max entre les deux notes)
  • le rattrapage est obligatoire si :
    Note initiale < 6

Le coefficient de l'UE est : 1.5

Programme détaillé

Le but de cette UE est de donner une vision applicative des outils de machine learning. Il s'agit donc d'un cours orienté sur les savoir-faire plus que sur les connaissances fondamentales. L'enjeu est ici de se focaliser sur les clés de performances opérationnelles dans les chaines de traitement de données:

  1. Les données, leur acquisition, leurs spécificités, la manière de sélectionner certaines caractéristiques et de les normaliser.
    Mots-clés: sélection de variables, prétaitements
  2. Le choix des problématiques et des modèles, la compréhension des hyper-paramètres de controle: régression, classification, approches linéaires ou non-linéaires, controle sur la complexité des modèles.
    Mots-clés: SVM, Arbre de décision, Forêt, Gradient boosting
  3. Evaluer les performances de manière fiable et optimiser les hyper-paramètres
    Mots-clés: validation croisée, campagne d'expériences, grid-search
  4. Analyser qualitativement les résultats obtenus, visualiser les données, comprendre les erreurs
    Mots-clés: PCA, t-SNE

Les développements seront effectués en python, en utilisant un IDE ou via jupyter; ils reposent principalement sur la librairie scikit-learn. Les chaines de traitement seront testées par les étudiants sur des données tabulaires usuelles en machine-learning. Il sera ensuite demandé aux étudiants de prendre en main des données brutes et de démontrer leur capacité à implémenter l'ensemble de la chaine sur ce cas d'usage: cette dernière étape constituera l'évaluation de l'UE.

Mots clés

Machine-Learning, sélection de variables, prétaitements, SVM, Arbre de décision, Forêt, Gradient boosting

Support pédagogique multimédia

Oui

Veuillez patienter