# GUIDE DU DATA MANAGER (édition 2022) Ce repo contient des éléments pour les étudiants du master 2 en Data Management de Paris School of Management. L'objectif finale est de réaliser un livre blanc qui servira de support de cours. ## Sommaire 1. [PARTIE 1: Organiser un projet Data](##Partie_1:_Organiser_un_projet_Data) * [Chapitre 1: Fondements de management de projet](###Chapitre_1:_Fondements_de_management_de_projet) * [Chapitre 2: Apports d'une démarche Agile](###Chapitre_2:_Apports_d'une_démarche_Agile) * [Chapitre 3 : Caractéristiques de la méthode SCRUM](###Chapitre_3:_Caractéristiques_de_la_méthode_SCRUM) 2. [PARTIE 2: Construire une base de données](##PARTIE_2:_Construire_une_base_de_données) * [Chapitre 4: Base de données relationnelles](###Chapitre_4:_Base_de_données_relationnelles) * [Chapitre 5: Collecter les données](###Chapitre_5:_Collecter_les_données) * [Chapitre 6: Préparer les données](###Chapitre_6:_Préparer_les_données) * [Chapitre 7: Organiser les données](###Chapitre_7:_Organiser_les_données) * [Chapitre 8: Présenter les données - data paper](###Chapitre_8:_Présenter_les_données_(data_paper)) 3. [PARTIE 3: Analyser les données](##PARTIE_3:_Analyser_les_données) * [Chapitre 9 : Décrire les données](###Chapitre_9:_Décrire_les_données) * [Chapitre 10 : Explorer les données](###Chapitre_10:_Explorer_les_données) * [Chapitre 11 : Trouver un modèle](###Chapitre_11:_Trouver_un_modèle) * [Chapitre 12 : Evaluer un modèle](###Chapitre_12:_Evaluer_un_modèle) 4. [PARTIE 4: Exploiter les données (Business Intelligence)](##PARTIE_4:_Exploiter_les_données_(BI)) * [Chapitre 13 : Définir les indicateurs de performanace](###Chapitre_14:_Definir_les_indicateurs_de_performanace) * [Chapitre 14 : Construire le tableau de bord](###Chapitre_13:_Construire_le_tableau_de_bord ) 5. [PARTIE 5: Utiliser l'intelligence artifcielle (Machine Learning)](##PARTIE_5:_Utiliser_l'intelligence_artifcielle) * [Chapitre 15 : Apprentissage supervisé](###Chapitre_15:_Apprentissage_supervisé) * [Chapitre 16 : Apprentissage non supervisé](###Chapitre_15:_Apprentissage_non_supervisé) ## Partie 1 : Organiser un projet Data ### Chapitre 1: Fondements de management de projet * Pourquoi il faut manager un projet ? * Qu’est-ce qu’un projet ? * Qu’est-ce que manager un projet * Quels sont les cycles de gestion de projet ? * Qu’est-ce que l’organigramme des tâches d’un projet ? * Comment maîtriser les délais ? * Qu’est-ce qu’un diagramme de GANTT ? * Qu’est-ce qu’un diagramme de PERT ? * Comment allouer les ressources d’un projet ? * Qu’est-ce qu’un cahier des charges fonctionnelles ? ### Chapitre 2: Apports d'une démarche Agile * Pourquoi passer à une méthode agile pour gérer un projet ? * Quelles sont les avantages de la méthode agile ? * Quels sont les différents types de méthode agile ? * Quand choisir une méthode agile ? * Quelles sont les différences entre méthode classique et méthode agile ? * Qu’est-ce que l’agilité ? * Comment devenir agile ? * Qu’est-ce que la méthode SCRUM ? * Quelles sont les valeurs de la méthode SCRUM ? * Quelles sont les principes de la méthode SCRUM ? * Quel est la démarche pour mettre en place une méthode SCRUM ? ### Chapitre 3 : Caractéristiques de la méthode SCRUM #### Quel est l'environnement d'un projet avec la méthode SCRUM ? * A quoi sert le Scrum Master ? * A quoi sert le Product Owner ? * A quoi sert l’équipe de développement ? #### Quels sont les objets d'un projet avec la méthode SCRUM ? * A quoi servent les Stories (cas d’usage) ? * Comment organiser les stories ? * A quoi servent les Product Backlog (carnet de produit) ? * Comment organiser les backllog ? #### Quels sont les évènements d'un projet avec la méthode SCRUM ? * Qu’est-ce qu’un Scrum meeting ? * Qu’est-ce qu’un Sprint ? * Comment organiser un sprint ? * Qu’est-ce qu’un Sprint Review ? #### Quels sont les outils pour déployer une méthode Scrum ? * Comment utiliser Discord pour gérer un projet ? * Comment utiliser Trello pour gérer un projet ? * Existe-il une solution gratuite à Jira Software ? * A quoi sert un système de versionning (Git) ? * Comment utiliser Gitea pour gérer les livrables ? ## PARTIE 2: Construire une base de données ### Chapitre 4: Base de données relationnelles #### Projet * le contexte * la mission * le livrable #### Tachés réalisées * l'organisation du projet : l'environnement, les objets, les évènements, les outils * la préparation du Sprint 1 : objectifs, acteurs, tâches #### Ce qu'il faut retenir * Qu'est-ce qu'une donnée ? * Qu'est-ce qu'une base de données ? * Qu'est-ce qu'un système de gestion de base de données (SGBD) ? ### Chapitre 5: Collecter les données #### Présentation du Sprint * objectifs * acteurs * évènements * support et outils utilisés #### Tachés réalisées * identifier des sources de données * sélectionner des jeux de données * collecter les données #### Résultats obtenus #### Difficultés rencontrées #### Ce qu'il faut retenir * Qu'est-ce que l'open data ? * Qu'est-ce que le webscraping ? * Comment collecter des données sur le web ? ### Chapitre 6: Préparer les données #### Présentation du Sprint * objectifs * acteurs * évènements * support et outils utilisés #### Tachés réalisées * présenter les jeux de données * descrire des variables * transformer des variables * indexer le jeu de données #### Résultats obtenus #### Difficultés rencontrées #### Ce qu'il faut retenir * Qu'est-ce qu'une clé primaire ? * Comment réaliser une jointure entre 2 tables de données ? ### Chapitre 7: Organiser les données #### Présentation du Sprint * objectifs * acteurs * évènements * support et outils utilisés #### Tachés réalisées * formater les variables (convertir) : dates, adresses, montant, ... * nettoyer la base de données : doublons, valeurs extêmes ou abbérentes, valeurs manquantes, ... * organiser les variables dans des tables * concevoir une architecture de la base de données #### Résultats obtenus #### Difficultés rencontrées #### Ce qu'il faut retenir * Qu'est-ce qu'une architecture de base de données ? ### Chapitre 8: Présenter les données (data paper) #### Présentation du Sprint * objectifs * acteurs * évènements * support et outils utilisés #### Tachés réalisées * Résumé * Contexte et objectifs * démarche et organisation de la base de données * Description des variables * Exploitation et usages #### Difficultés rencontrées #### Ce qu'il faut retenir * Qu'est-ce qu'un data paper ? ## PARTIE 3: Analyser les données ### Chapitre 9 : Décrire les données * les différents types de données * les données quantitatives * les données qualitatives * la transformation de données qualitatives en données quantitatives * variables à expliquer et variables explicatives * les mesures de tendance centrale * le mode * la médiane * la moyenne * les mesures de dispersion et de position * l'écart-types * la variance * l'étendue * le minimum * le maximum * le percentile ### Chapitre 10 : Explorer les données * Relations entre 2 variables * 2 variables numériques * 2 variables catégorielles * 1 variable numérique et 1 variable catégorielle * Analyse des corrélations * Coefficient de corrélation de Pearson et de Spearman * Tableau des correlations * Analyse de la variance (ANOVA) * Analyse factorielle et réduction des dimensions ### Chapitre 11 : Trouver un modèle * La régression linéaire * La régression logistique ### Chapitre 12 Evaluer un modèle * évaluer les modèles de régression linéaire * le coefficient de détermination (R2) * l'erreur quadratique moyenne (MSE) * évaluer les modèles de régression logistique * la matrice de confusion ## PARTIE 4: Exploiter les données (BI) ### Chapitre 13 : Définir les indicateurs de performanace ### Chapitre 14 : Construire le tableau de bord ## PARTIE 5: Utiliser l'intelligence artifcielle (Machine Learning) ### Chapitre 15 : Apprentissage supervisé * Qu'est-ce que l'apprentissage supervisé ? * Comment faire une prédiction grâce à l'apprentissage supervisé ? * Quels sont les modèles d'apprentissage supervisé ? * Comment optimiser une prédiction en faisant du "feature engineering" ? * Comment évaluer un modèle de prédiction ? ### Chapitre 16 : Apprentissage non supervisé