Descriptif
Le but de cette UE est de donner une vision applicative des outils de machine learning. Il s'agit donc d'un cours orienté sur les savoir-faire plus que sur les connaissances fondamentales. L'enjeu est ici de se focaliser sur les clés de performances opérationnelles dans les chaines de traitement de données:
1. Les données, leur acquisition, leurs spécificités, la manière de sélectionner certaines caractéristiques et de les normaliser.
2. Le choix des problématiques et des modèles, la compréhension des hyper-paramètres de controle: régression, classification, approches linéaires ou non-linéaires, controle sur la complexité des modèles.
3. Evaluer les performances de manière fiable et optimiser les hyper-paramètres
4. Analyser qualitativement les résultats obtenus, visualiser les données, comprendre les erreurs
- CM : 21
effectifs minimal / maximal:
8/32Diplôme(s) concerné(s)
- Ingénieur AgroParisTech
- MASTER - BIOLOGIE INTEGRATIVE ET PHYSIOLOGIE
- Accueillis cursus ing 2e et 3e année (erasmus et école)
- Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)
UE de rattachement
- 2A-UEchoix-S2 : UE à choix Semestre 2
domaines ParisTech
Système d'information - Modélisation.Pour les étudiants du diplôme Ingénieur AgroParisTech
Bases de programmation en Python
Pour les étudiants du diplôme MASTER - BIOLOGIE INTEGRATIVE ET PHYSIOLOGIE
Bases de programmation en Python
Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)
Bases de programmation en Python
Pour les étudiants du diplôme Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)
Bases de programmation en Python
Format des notes
Numérique sur 20Pour les étudiants du diplôme MASTER - BIOLOGIE INTEGRATIVE ET PHYSIOLOGIE
Le rattrapage est autorisé (Max entre les deux notes)- le rattrapage est obligatoire si :
- Note initiale < 10
Le coefficient de l'UE est : 1
Pour les étudiants du diplôme Ingénieur AgroParisTech
Le rattrapage est autorisé (Max entre les deux notes)- le rattrapage est obligatoire si :
- Note initiale < 6
Le coefficient de l'UE est : 1.5
Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)
Le rattrapage est autorisé (Max entre les deux notes)- le rattrapage est obligatoire si :
- Note initiale < 6
Le coefficient de l'UE est : 1.5
Pour les étudiants du diplôme Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)
Le rattrapage est autorisé (Max entre les deux notes)- le rattrapage est obligatoire si :
- Note initiale < 6
Le coefficient de l'UE est : 1.5
Programme détaillé
Le but de cette UE est de donner une vision applicative des outils de machine learning. Il s'agit donc d'un cours orienté sur les savoir-faire plus que sur les connaissances fondamentales. L'enjeu est ici de se focaliser sur les clés de performances opérationnelles dans les chaines de traitement de données:
- Les données, leur acquisition, leurs spécificités, la manière de sélectionner certaines caractéristiques et de les normaliser.
Mots-clés: sélection de variables, prétaitements - Le choix des problématiques et des modèles, la compréhension des hyper-paramètres de controle: régression, classification, approches linéaires ou non-linéaires, controle sur la complexité des modèles.
Mots-clés: SVM, Arbre de décision, Forêt, Gradient boosting - Evaluer les performances de manière fiable et optimiser les hyper-paramètres
Mots-clés: validation croisée, campagne d'expériences, grid-search - Analyser qualitativement les résultats obtenus, visualiser les données, comprendre les erreurs
Mots-clés: PCA, t-SNE
Les développements seront effectués en python, en utilisant un IDE ou via jupyter; ils reposent principalement sur la librairie scikit-learn. Les chaines de traitement seront testées par les étudiants sur des données tabulaires usuelles en machine-learning. Il sera ensuite demandé aux étudiants de prendre en main des données brutes et de démontrer leur capacité à implémenter l'ensemble de la chaine sur ce cas d'usage: cette dernière étape constituera l'évaluation de l'UE.
Mots clés
Machine-Learning, sélection de variables, prétaitements, SVM, Arbre de décision, Forêt, Gradient boostingSupport pédagogique multimédia