v2.11.0 (5306)

Enseignement scientifique et technique - UC6-31 : Le "machine learning" en pratique : du prétraitement des données à l'optimisation des performances

Domaine > Modélisation Mathématique, Informatique et Physique.

Descriptif

Le but de cette UE est de donner une vision applicative des outils de machine learning. Il s'agit donc d'un cours orienté sur les savoir-faire plus que sur les connaissances fondamentales. L'enjeu est ici de se focaliser sur les clés de performances opérationnelles dans les chaines de traitement de données:

1. Les données, leur acquisition, leurs spécificités, la manière de sélectionner certaines caractéristiques et de les normaliser. 

2. Le choix des problématiques et des modèles, la compréhension des hyper-paramètres de controle: régression, classification, approches linéaires ou non-linéaires, controle sur la complexité des modèles.

3. Evaluer les performances de manière fiable et optimiser les hyper-paramètres  

4. Analyser qualitativement les résultats obtenus, visualiser les données, comprendre les erreurs      

24 heures en présentiel

30 heures de travail personnel estimé pour l’étudiant.

effectifs minimal / maximal:

8/32

Diplôme(s) concerné(s)

UE de rattachement

domaines ParisTech

Système d'information - Modélisation.

Pour les étudiants du diplôme Ingénieur AgroParisTech

Outils: Python, numpy, scikit-learn (sans doute quelques lignes de pandas)

Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)

Outils: Python, numpy, scikit-learn (sans doute quelques lignes de pandas)

Pour les étudiants du diplôme Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)

Outils: Python, numpy, scikit-learn (sans doute quelques lignes de pandas)

Format des notes

Numérique sur 20

Pour les étudiants du diplôme Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)

Le coefficient de l'UE est : 1.5

Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)

Pour les étudiants du diplôme Ingénieur AgroParisTech

Pour les étudiants du diplôme MASTER - BIOLOGIE INTEGRATIVE ET PHYSIOLOGIE

Programme détaillé

Le but de cette UE est de donner une vision applicative des outils de machine learning. Il s'agit donc d'un cours orienté sur les savoir-faire plus que sur les connaissances fondamentales. L'enjeu est ici de se focaliser sur les clés de performances opérationnelles dans les chaines de traitement de données:

  1. Les données, leur acquisition, leurs spécificités, la manière de sélectionner certaines caractéristiques et de les normaliser.
    Mots-clés: sélection de variables, prétaitements
  2. Le choix des problématiques et des modèles, la compréhension des hyper-paramètres de controle: régression, classification, approches linéaires ou non-linéaires, controle sur la complexité des modèles.
    Mots-clés: SVM, Arbre de décision, Forêt, Gradient boosting
  3. Evaluer les performances de manière fiable et optimiser les hyper-paramètres
    Mots-clés: validation croisée, campagne d'expériences, grid-search
  4. Analyser qualitativement les résultats obtenus, visualiser les données, comprendre les erreurs
    Mots-clés: PCA, t-SNE

Les développements seront effectués en python, en utilisant un IDE ou via jupyter; ils reposent principalement sur la librairie scikit-learn. Les chaines de traitement seront testées par les étudiants sur des données tabulaires usuelles en machine-learning. Il sera ensuite demandé aux étudiants de prendre en main des données brutes et de démontrer leur capacité à implémenter l'ensemble de la chaine sur ce cas d'usage: cette dernière étape constituera l'évaluation de l'UE.

Mots clés

sélection de variables, prétaitements, SVM, Arbre de décision, Forêt, Gradient boosting

Support pédagogique multimédia

Oui

Veuillez patienter