Genie Des Donnees(INF 517)
| Nom du Cours | Semestre du Cours | Cours Théoriques | Travaux Dirigés (TD) | Travaux Pratiques (TP) | Crédit du Cours | ECTS | |
|---|---|---|---|---|---|---|---|
| INF 517 | Genie Des Donnees | 2 | 3 | 0 | 0 | 3 | 6 |
| Cours Pré-Requis | |
| Conditions d'Admission au Cours |
| Langue du Cours | Anglais |
| Type de Cours | Électif |
| Niveau du Cours | Master |
| Enseignant(s) du Cours | Sultan Nezihe TURHAN sturhan@gsu.edu.tr (Email) |
| Assistant(e)s du Cours | |
| Objectif du Cours |
L'ingénierie des données est la discipline qui traite de la conception de systèmes et de l'utilisation de méthodes d'analyse pour l'acquisition, le stockage, la gestion, la sécurité et le traitement des données. Des systèmes de gestion des données sophistiqués sont nécessaires pour traiter les volumes considérables de « mégadonnées » disponibles. Ce cours constituera une introduction aux principes et pratiques de l'ingénierie des données et abordera les thèmes suivants : i. Le cycle de vie de l'ingénierie des données ii. Techniques de modélisation des données pour l'organisation et la gestion des données iii. Création de pipelines de données pour collecter, transformer, analyser et visualiser les données provenant de plusieurs systèmes sources. iv. Manipulation des données à l'aide de différents langages de requête v. Applications et algorithmes d'analyse de données vi. Ingénierie des types de données non traditionnels vii. Normes et qualité des données |
| Contenus |
1. Introduction à l'ingénierie des données : concepts généraux 2. Technologies de stockage des données 3. Plateformes de données cloud (AWS/Azure/GCP) 4. Méthodes d'intégration des données et architectures de pipelines de données 5. Orchestration des flux de travail avec Apache Airflow 6. Transformation des données avec dbt (outil de construction de données) 7. Traitement par lots avec Spark 8. Principes fondamentaux du traitement de flux et Apache Kafka 9. Recherche et extraction d'informations : Elastic Search 10. Lac de données : architecture et principes 11. Maillage de données : architecture et principes 12. Gouvernance des données - 1 : Gestion des métadonnées 13. Gouvernance des données - 2 : Qualité et tests des données 14. Gouvernance des données - 2 : Traçabilité et observabilité des données |
| Acquis d'Apprentissage du Cours |
À l'issue de ce cours, l'étudiant aura acquis les compétences suivantes : - Distinguer l'ingénierie des données de la science des données et les considérer comme des disciplines distinctes - Explique et met en œuvre les étapes constitutives du cycle de vie des données - Explique les techniques d'ingénierie des données ; applique et documente des techniques d'ingénierie des données à grande échelle pour une tâche spécifique impliquant divers types de données multidimensionnelles - Explique et met en œuvre les enjeux techniques, éthiques et sociétaux liés à l'ingénierie des données, au stockage, à l'accès et à la maintenance - Explique les principes fondamentaux de l'analyse des mégadonnées et des algorithmes, et les applique à différents domaines - Explique les normes et les meilleures pratiques en matière d'ingénierie des données, analyse les lacunes et identifie les stratégies et approches possibles pour les surmonter. |
| Méthodes d'Enseignement | Cours théorique, exposé, discussion, étude de cas, devoirs, projet, application |
| Ressources |
1. Reis, J, Housley M, Fundamentals of Data Engineering: Plan and Build Robust Data Systems, 1st Edition, 2022, O’Reilly, 978-1098108304 2. Warren, J., & Marz, N. (2015). Big Data: Principles and best practices of scalable realtime data systems. Simon and Schuster. 3. Learning Spark: Lightning-Fast Big Data Analysis, by by Holden Karau, Andy Konwinski, Patrick Wendell, and Matei Zaharia. O'Reilly Media. Feb 2015 4. Hadoop: The Definitive Guide, by Tom White. O'Reilly Media. April 2015. (Fourth edition of the book at Amazon.com) 5. Gorelik, A. (2019). The enterprise big data lake: Delivering the promise of big data and data science. O'Reilly Media. |
Intitulés des Sujets Théoriques
| Semaine | Intitulés des Sujets |
|---|---|
| 1 | Génie des données -- concepts fondamentaux |
| 2 | Technologies de stockage des données |
| 3 | Plateformes de données cloud (AWS/Azure/GCP) |
| 4 | Méthodes d'intégration des données et architectures de pipelines de données |
| 5 | Orchestration des flux de travail avec Apache Airflow |
| 6 | Transformation des données avec dbt (outil de construction de données) |
| 7 | Traitement par lots avec Spark |
| 8 | Principes fondamentaux du traitement de flux et Apache Kafka |
| 9 | Recherche et extraction d'informations : Elastic Search |
| 10 | Lac de données : architecture et principes |
| 11 | Maillage de données : architecture et principes |
| 12 | Gouvernance des données - 1 : Gestion des métadonnées |
| 13 | Gouvernance des données - 2 : Qualité et tests des données |
| 14 | Gouvernance des données - 3 : Traçabilité et observabilité des données |
Intitulés des Sujets Pratiques
| Semaine | Intitulés des Sujets |
|---|
Contribution à la Note Finale
| Numéro | Frais de Scolarité | |
|---|---|---|
| Contribution du contrôle continu à la note finale | 7 | 50 |
| Contribution de l'examen final à la note finale | 1 | 50 |
| Toplam | 8 | 100 |
Contrôle Continu
| Numéro | Frais de Scolarité | |
|---|---|---|
| Devoir | 5 | 15 |
| Présentation | 1 | 15 |
| Examen partiel (temps de préparation inclu) | 1 | 20 |
| Projet | 0 | 0 |
| Travail de laboratoire | 0 | 0 |
| Autres travaux pratiques | 0 | 0 |
| Quiz | 0 | 0 |
| Devoir/projet de session | 0 | 0 |
| Portefeuille | 0 | 0 |
| Rapport | 0 | 0 |
| Journal d'apprentissage | 0 | 0 |
| Mémoire/projet de fin d'études | 0 | 0 |
| Séminaire | 0 | 0 |
| Autre | 0 | 0 |
| Make-up | 0 | 0 |
| Toplam | 7 | 50 |
| No | Objectifs Pédagogiques du Programme | Contribiton | ||||
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | ||
| 1 | X | |||||
| 2 | X | |||||
| 3 | X | |||||
| 4 | X | |||||
| 5 | X | |||||
| 6 | X | |||||
| 7 | X | |||||
| 8 | X | |||||
| 9 | X | |||||
| 10 | X | |||||
| 11 | X | |||||
| 12 | X | |||||
| 13 | X | |||||
| Activités | Nombre | Durée | Charge totale de Travail |
|---|---|---|---|
| Durée du cours | 14 | 3 | 42 |
| Préparation pour le cours | 14 | 2 | 28 |
| Devoir | 5 | 1 | 5 |
| Présentation | 1 | 1 | 1 |
| Examen partiel (temps de préparation inclu) | 1 | 1 | 1 |
| Projet | 0 | 0 | 0 |
| Laboratoire | 0 | 0 | 0 |
| Autres travaux pratiques | 0 | 0 | 0 |
| Examen final (temps de préparation inclu) | 1 | 5 | 5 |
| Quiz | 0 | 0 | 0 |
| Devoir/projet de session | 0 | 0 | 0 |
| Portefeuille | 0 | 0 | 0 |
| Rapport | 0 | 0 | 0 |
| Journal d'apprentissage | 0 | 0 | 0 |
| Mémoire/projet de fin d'études | 0 | 0 | 0 |
| Séminaire | 0 | 0 | 0 |
| Autre | 0 | 0 | 0 |
| baclé | 0 | 0 | 0 |
| Yil | 0 | 0 | 0 |
| Yil | 0 | 0 | 0 |
| Yil | 0 | 0 | 0 |
| Charge totale de Travail | 82 | ||
| Charge totale de Travail / 25 | 3.28 | ||
| Crédits ECTS | 3 | ||


