Descriptif
Le but de cette UE est de donner une vision applicative des outils de machine learning. Il s'agit donc d'un cours orienté sur les savoir-faire plus que sur les connaissances fondamentales. L'enjeu est ici de se focaliser sur les clés de performances opérationnelles dans les chaines de traitement de données:
1. Les données, leur acquisition, leurs spécificités, la manière de sélectionner certaines caractéristiques et de les normaliser.
2. Le choix des problématiques et des modèles, la compréhension des hyper-paramètres de controle: régression, classification, approches linéaires ou non-linéaires, controle sur la complexité des modèles.
3. Evaluer les performances de manière fiable et optimiser les hyper-paramètres
4. Analyser qualitativement les résultats obtenus, visualiser les données, comprendre les erreurs
effectifs minimal / maximal:
8/32Diplôme(s) concerné(s)
- Ingénieur AgroParisTech
- Accueillis cursus ing 2e et 3e année (erasmus et école)
- Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)
UE de rattachement
- 2A-UEchoix-S2 : UE à choix Semestre 2
domaines ParisTech
Système d'information - Modélisation.Pour les étudiants du diplôme Ingénieur AgroParisTech
Outils: Python, numpy, scikit-learn (sans doute quelques lignes de pandas)
Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)
Outils: Python, numpy, scikit-learn (sans doute quelques lignes de pandas)
Pour les étudiants du diplôme Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)
Outils: Python, numpy, scikit-learn (sans doute quelques lignes de pandas)
Format des notes
Numérique sur 20Pour les étudiants du diplôme Accueillis IAE forestiers (ingénieurs de l'Institut Agro Dijon)
Le coefficient de l'UE est : 1.5
Pour les étudiants du diplôme Accueillis cursus ing 2e et 3e année (erasmus et école)
Pour les étudiants du diplôme Ingénieur AgroParisTech
Programme détaillé
Le but de cette UE est de donner une vision applicative des outils de machine learning. Il s'agit donc d'un cours orienté sur les savoir-faire plus que sur les connaissances fondamentales. L'enjeu est ici de se focaliser sur les clés de performances opérationnelles dans les chaines de traitement de données:
- Les données, leur acquisition, leurs spécificités, la manière de sélectionner certaines caractéristiques et de les normaliser.
Mots-clés: sélection de variables, prétaitements - Le choix des problématiques et des modèles, la compréhension des hyper-paramètres de controle: régression, classification, approches linéaires ou non-linéaires, controle sur la complexité des modèles.
Mots-clés: SVM, Arbre de décision, Forêt, Gradient boosting - Evaluer les performances de manière fiable et optimiser les hyper-paramètres
Mots-clés: validation croisée, campagne d'expériences, grid-search - Analyser qualitativement les résultats obtenus, visualiser les données, comprendre les erreurs
Mots-clés: PCA, t-SNE
Les développements seront effectués en python, en utilisant un IDE ou via jupyter; ils reposent principalement sur la librairie scikit-learn. Les chaines de traitement seront testées par les étudiants sur des données tabulaires usuelles en machine-learning. Il sera ensuite demandé aux étudiants de prendre en main des données brutes et de démontrer leur capacité à implémenter l'ensemble de la chaine sur ce cas d'usage: cette dernière étape constituera l'évaluation de l'UE.
Mots clés
sélection de variables, prétaitements, SVM, Arbre de décision, Forêt, Gradient boostingSupport pédagogique multimédia