Objectifs
- Guider le responsable SI et les responsables métiers vers la création de valeur à partir des données et répondre à ses préoccupations pratiques de mise en oeuvre. Appréhender les opportunités, les projets réels ; les rôles pour la DSI en rapport direct avec les métiers.
- Data Engineering, Data Science, Machine Learning, Iot. Panorama des solutions et des architectures, modélisation des données, intégration au Système d’Information.
- Stockage des Big Data et Data Lake : Stockage distribué, sécurité, infrastructure. Traitements des Big Data et Data Lab : MapReduce, machine learning en environnement parallèle, traitements des données non structurées.
- Accès aux données en temps réel : NoSQL, InMemory, NewSQL et streaming Big Data.
- Méthodologie pour un projet Big Data : Cadrage, étapes du projet, organisation de nouveaux métiers et gouvernance.
Public visé
Directions informatiques et directions métiers (Marketing, Commerciale, Innovation, etc.).
Programme
Big Data, quelles opportunités pour l'entreprise ?
Quel Big Data pour l'entreprise ?
- « Buzzword » à ces débuts, quelle définition pragmatique pouvons-nous donner aujourd’hui au Big Data ?
- L’analyse des données au service de la performance : Comment identifier les nouveaux leviers de performance ?
- En quoi Big Data est un enjeu de performance pour les entreprises et les organisations ?
- IA, Cloud, IoT, etc. : Où positionner le Big Data ?
- Les "V" du Big Data, comme standard de définition.
Rôle de la DSI dans le Big Data :
- La DSI comme fournisseur de services IT ou fournisseur de données à valeur ajoutée ?
- Comment, concrètement, le DSI peut-il saisir l’opportunité Big Data ?
- Quels sont les nouveaux challenges pour la DSI ?
- Comment travailler conjointement entre une direction Métier et la DSI ?
Création de valeur à partir des données :
- Comment identifier les données à valeur ajoutée ?
- Les nouveaux types de données : Non structurées (message, document), semi-structurées.
- Comment tirer profit des données clients, produits ou de suivi ?
- Grille d’analyse de la valeur des données et des objectifs d’analyse.
- Étude de cas.
Sources de données publiques et privées :
- Quelles sont les sources de données internes, externes, gratuites, payantes à exploiter ?
- Comment exploiter les données des réseaux sociaux ? Qu’est-ce que le Data Crunching ?
- La mise à disposition de données gratuites : Open Data.
- Comment exploiter les données des objets connectés ?
- Comment croiser données publiques et privées ?
- Comment utiliser les données provenant du Web ?
Business intelligence ou Big Data :
- Rappels sur ce que l'on appelle BI ou informatique décisionnelle.
- Les limites de la BI.
- Comparaisons de l'approche Big Data et de l'approche BI.
- Transformation du SI décisionnel.
Le stockage des Big Data :
Technologies de stockage distribué :
- La technologie HDFS : Principes et fonctionnement.
- La granularité de cohérence des données : Les différents niveaux de cohérence.
- Quel dimensionnement ? Serveurs, RAM, CPU, disques, réseau.
Manipulation et extraction des données :
- Outils de requêtage et de traitement Hadoop MapReduce.
- Performance et limites du MapReduce.
- Manipulation interactive : Impala, SparkSQL, MPP, Vertical distribué.
- Le transactionnel Big Data NoSQL et NewSQL
- Les principales bases NoSQL : Cassandra, MongoDB, Neo4j.
- Traitements analytiques en temps réel ? Fusionner Big Data et Fast Data.
- Focus sur les bases de données Graph : Exemple de ElasticSearch.
- Panorama des solutions NewSQL : VoltDB, Aerospike, NuoDB.
Les bases de données Séries Temporelles :
- Quels sont leurs usages ?
- Quels sont les points clefs de ces stockages ?
- Panorama des solutions Time Series DBMS : InfluxDB, Kdb+, Prometheus.
La révolution Cloud, le stockage vu comme moins limitant :
- Le principe du Xaas, de la scalabilité aux services managés.
- Vue d'ensemble des principaux fournisseurs Data as a Service.
- Principes fondamentaux de leur stockage et coûts associés.
- Data Virtualization : Ou comment dépasser la problématique du stockage.
Les architectures Big Data :
Le fondement des architectures Big Data :
- Quelles sont les évolutions technologiques qui révolutionnent l’architecture technique ?
- Quelles sont les contraintes techniques ? Performance, scalabilité, disponibilité.
- Les caractéristiques d’une architecture Big Data hautement performante.
- Stockage par bloc, stockage objet, l'arrivée du Software Defined Storage.
Panorama des nouvelles solutions Big Data sur site :
- Architecture orientée stockage : Hadoop, Spark, MPP.
- Architecture orientée calcul : Grid Computing, GPU.
- Architecture orientée haute disponibilité : NoSQL, NewSQL.
- Architecture orientée évènementiel : CEP, ESP, Storm, Flink, Spark.
- Hadoop : Description et évolutions.
- Mise en pratique d'un cluster Hadoop.
- Focus sur Spark : Définition, technique et cas d'usage.
Panorama des nouvelles solutions Big Data Cloud :
- Une vision pragmatique grâce aux services managés.
- Une opportunité d'accès à la technologie Big Data.
- AWS, Microsoft, Google. Quelles différences entre les différents fournisseurs?
- Cloud Privé, une solution alternative ?
- Mise en pratique.
Typologie des architectures Big Data :
- Comment positionner un système Big Data dans le SI ?
- Concepts logiques Big Data : Data Lake, Data Lab, Data Hub ?
- Qu’est-ce que la Lambda Architecture (puis la Kappa et Zeta architecture) ? Quels usages pour chaque architecture ?
- Déploiement physique, Appliance ou Cloud Big Data ?
- Cas d'usage.
Trois cas d'usages classiques :
- Du Datawarehouse au Datalake.
- Le traitement des objets connectés.
- La prise en charge des données des réseaux sociaux.
Le traitement et l'analyse des Big data :
Ce chapitre synthétise, de façon accessible, les techniques d’analyse des données indispensables au Big Data.
Le cadre juridique des données : RGPD :
- Les données identifiantes et à caractère personnel.
- Les obligations légales des entreprises : Minimisation, finalité, durée de conservation, droits des personnes.
- La propriété intellectuelle des données dans le cadre du Big Data.
- L’évolution du cadre légal européen.
- Mise en pratique de la pseudonymisation, de l'anonymisation de facteur K et du differential privacy.
Visualisation des données à valeur ajoutée :
- Les limites des outils traditionnels d’analyse de données : Excel, BO, etc.
- Comment représenter efficacement des données analytiques ?
- Les outils et composants de visualisation des données Big Data.
Evolutions du Data Mining vers le Machine Learning :
- Les principales évolutions du Data Mining vers le Machine Learning et le Deep Learning.
- Les spécificités du Machine Learning pour le Big Data : Haute dimension, occurrences élevées.
- Domaines d’application privilégiés : Marketing, finance, e-commerce, transport, ressources humaines.
- Ethique des algorithmes, sujet d’avenir.
Machine Learning en environnement parallèle :
- Les contraintes de parallélisme des algorithmes de Machine Learning.
- Les librairies de Machine Learning : Spark MLlib, Mahout, Hama, Scikit Learn, R, Tensor Flow.
- Étude de cas.
Programmation parallèle MapReduce :
- Fondamentaux du traitement MapReduce.
- Fonctionnement MapReduce dans Hadoop.
- Points de vigilance et administration.
Traitements des données non structurées :
- Les principes de l’analyse sémantique : Sentiment, univers, corrélation.
- Les principes de l’analyse des images pour le Machine Learning.
- Étude de cas.
La méthodologie pour un projet Big Data :
Le cadrage des projets Big Data :
- Les différentes facettes à cadrer des projets Big Data.
- Comment intégrer l’incertitude au Business Case projet ?
- Comment estimer le budget et le délai d’un projet Big Data Analytics ?
Le management des projets de Big Data :
- Une approche projet nécessairement agile, mix entre Scrum et Kanban : ScrumBan.
- La fin du POC : Du POV à l'industrialisation.
- Comment manager un projet Big Data ?
- Les étapes d’un projet Big Data phase par phase.
- Mise en pratique.
L’organisation des projets Big Data :
- Quels sont les nouveaux métiers du Big Data ?
- Data Scientist, Data Engineer, Data Stewards et maintenant Data Ops : Qui recruter pour quels besoins ?
- Quelle gouvernance pour le Big Data ?
- Les différentes formes d’organisation. Retours d’expérience.
- Comment recruter et organiser la montée en compétences des équipes ?