CAPGEMINI INSTITUT

Big Data : L'état de l'art

Certification / expertise

14 heure(s)

2005 € HT

Organisme privé de formation continue

Consultez le site de l'organisme

Objectifs

  • Guider le responsable SI et les responsables métiers vers la création de valeur à partir des données et répondre à ses préoccupations pratiques de mise en oeuvre. Appréhender les opportunités, les projets réels ; les rôles pour la DSI en rapport direct avec les métiers.
  • Data Engineering, Data Science, Machine Learning, Iot. Panorama des solutions et des architectures, modélisation des données, intégration au Système d’Information.
  • Stockage des Big Data et Data Lake : Stockage distribué, sécurité, infrastructure. Traitements des Big Data et Data Lab : MapReduce, machine learning en environnement parallèle, traitements des données non structurées.
  • Accès aux données en temps réel : NoSQL, InMemory, NewSQL et streaming Big Data.
  • Méthodologie pour un projet Big Data : Cadrage, étapes du projet, organisation de nouveaux métiers et gouvernance.

Public visé

Directions informatiques et directions métiers (Marketing, Commerciale, Innovation, etc.).

Programme

Big Data, quelles opportunités pour l'entreprise ?

Quel Big Data pour l'entreprise ?

  • « Buzzword » à ces débuts, quelle définition pragmatique pouvons-nous donner aujourd’hui au Big Data ?
  • L’analyse des données au service de la performance : Comment identifier les nouveaux leviers de performance ?
  • En quoi Big Data est un enjeu de performance pour les entreprises et les organisations ?
  • IA, Cloud, IoT, etc. : Où positionner le Big Data ?
  • Les "V" du Big Data, comme standard de définition.
Rôle de la DSI dans le Big Data :
  • La DSI comme fournisseur de services IT ou fournisseur de données à valeur ajoutée ?
  • Comment, concrètement, le DSI peut-il saisir l’opportunité Big Data ?
  • Quels sont les nouveaux challenges pour la DSI ?
  • Comment travailler conjointement entre une direction Métier et la DSI ?
Création de valeur à partir des données :
  • Comment identifier les données à valeur ajoutée ?
  • Les nouveaux types de données : Non structurées (message, document), semi-structurées.
  • Comment tirer profit des données clients, produits ou de suivi ?
  • Grille d’analyse de la valeur des données et des objectifs d’analyse.
  • Étude de cas.
Sources de données publiques et privées :
  • Quelles sont les sources de données internes, externes, gratuites, payantes à exploiter ?
  • Comment exploiter les données des réseaux sociaux ? Qu’est-ce que le Data Crunching ?
  • La mise à disposition de données gratuites : Open Data.
  • Comment exploiter les données des objets connectés ?
  • Comment croiser données publiques et privées ?
  • Comment utiliser les données provenant du Web ?
Business intelligence ou Big Data :
  • Rappels sur ce que l'on appelle BI ou informatique décisionnelle.
  • Les limites de la BI.
  • Comparaisons de l'approche Big Data et de l'approche BI.
  • Transformation du SI décisionnel.

Le stockage des Big Data :

Technologies de stockage distribué :

  • La technologie HDFS : Principes et fonctionnement.
  • La granularité de cohérence des données : Les différents niveaux de cohérence.
  • Quel dimensionnement ? Serveurs, RAM, CPU, disques, réseau.
Manipulation et extraction des données :
  • Outils de requêtage et de traitement Hadoop MapReduce.
  • Performance et limites du MapReduce.
  • Manipulation interactive : Impala, SparkSQL, MPP, Vertical distribué.
  • Le transactionnel Big Data NoSQL et NewSQL
  • Les principales bases NoSQL : Cassandra, MongoDB, Neo4j.
  • Traitements analytiques en temps réel ? Fusionner Big Data et Fast Data.
  • Focus sur les bases de données Graph : Exemple de ElasticSearch.
  • Panorama des solutions NewSQL : VoltDB, Aerospike, NuoDB.
Les bases de données Séries Temporelles :
  • Quels sont leurs usages ?
  • Quels sont les points clefs de ces stockages ?
  • Panorama des solutions Time Series DBMS : InfluxDB, Kdb+, Prometheus.
La révolution Cloud, le stockage vu comme moins limitant :
  • Le principe du Xaas, de la scalabilité aux services managés.
  • Vue d'ensemble des principaux fournisseurs Data as a Service.
  • Principes fondamentaux de leur stockage et coûts associés.
  • Data Virtualization : Ou comment dépasser la problématique du stockage.

Les architectures Big Data :

Le fondement des architectures Big Data :

  • Quelles sont les évolutions technologiques qui révolutionnent l’architecture technique ?
  • Quelles sont les contraintes techniques ? Performance, scalabilité, disponibilité.
  • Les caractéristiques d’une architecture Big Data hautement performante.
  • Stockage par bloc, stockage objet, l'arrivée du Software Defined Storage.
Panorama des nouvelles solutions Big Data sur site :
  • Architecture orientée stockage : Hadoop, Spark, MPP.
  • Architecture orientée calcul : Grid Computing, GPU.
  • Architecture orientée haute disponibilité : NoSQL, NewSQL.
  • Architecture orientée évènementiel : CEP, ESP, Storm, Flink, Spark.
  • Hadoop : Description et évolutions.
  • Mise en pratique d'un cluster Hadoop.
  • Focus sur Spark : Définition, technique et cas d'usage.
Panorama des nouvelles solutions Big Data Cloud :
  • Une vision pragmatique grâce aux services managés.
  • Une opportunité d'accès à la technologie Big Data.
  • AWS, Microsoft, Google. Quelles différences entre les différents fournisseurs?
  • Cloud Privé, une solution alternative ?
  • Mise en pratique.
Typologie des architectures Big Data :
  • Comment positionner un système Big Data dans le SI ?
  • Concepts logiques Big Data : Data Lake, Data Lab, Data Hub ?
  • Qu’est-ce que la Lambda Architecture (puis la Kappa et Zeta architecture) ? Quels usages pour chaque architecture ?
  • Déploiement physique, Appliance ou Cloud Big Data ?
  • Cas d'usage.
Trois cas d'usages classiques :
  • Du Datawarehouse au Datalake.
  • Le traitement des objets connectés.
  • La prise en charge des données des réseaux sociaux.

Le traitement et l'analyse des Big data :

Ce chapitre synthétise, de façon accessible, les techniques d’analyse des données indispensables au Big Data.

Le cadre juridique des données : RGPD :
  • Les données identifiantes et à caractère personnel.
  • Les obligations légales des entreprises : Minimisation, finalité, durée de conservation, droits des personnes.
  • La propriété intellectuelle des données dans le cadre du Big Data.
  • L’évolution du cadre légal européen.
  • Mise en pratique de la pseudonymisation, de l'anonymisation de facteur K et du differential privacy.
Visualisation des données à valeur ajoutée :
  • Les limites des outils traditionnels d’analyse de données : Excel, BO, etc.
  • Comment représenter efficacement des données analytiques ?
  • Les outils et composants de visualisation des données Big Data.
Evolutions du Data Mining vers le Machine Learning :
  • Les principales évolutions du Data Mining vers le Machine Learning et le Deep Learning.
  • Les spécificités du Machine Learning pour le Big Data : Haute dimension, occurrences élevées.
  • Domaines d’application privilégiés : Marketing, finance, e-commerce, transport, ressources humaines.
  • Ethique des algorithmes, sujet d’avenir.
Machine Learning en environnement parallèle :
  • Les contraintes de parallélisme des algorithmes de Machine Learning.
  • Les librairies de Machine Learning : Spark MLlib, Mahout, Hama, Scikit Learn, R, Tensor Flow.
  • Étude de cas.
Programmation parallèle MapReduce :
  • Fondamentaux du traitement MapReduce.
  • Fonctionnement MapReduce dans Hadoop.
  • Points de vigilance et administration.
Traitements des données non structurées :
  • Les principes de l’analyse sémantique : Sentiment, univers, corrélation.
  • Les principes de l’analyse des images pour le Machine Learning.
  • Étude de cas.

La méthodologie pour un projet Big Data :

Le cadrage des projets Big Data :

  • Les différentes facettes à cadrer des projets Big Data.
  • Comment intégrer l’incertitude au Business Case projet ?
  • Comment estimer le budget et le délai d’un projet Big Data Analytics ?
Le management des projets de Big Data :
  • Une approche projet nécessairement agile, mix entre Scrum et Kanban : ScrumBan.
  • La fin du POC : Du POV à l'industrialisation.
  • Comment manager un projet Big Data ?
  • Les étapes d’un projet Big Data phase par phase.
  • Mise en pratique.
L’organisation des projets Big Data :
  • Quels sont les nouveaux métiers du Big Data ?
  • Data Scientist, Data Engineer, Data Stewards et maintenant Data Ops : Qui recruter pour quels besoins ?
  • Quelle gouvernance pour le Big Data ?
  • Les différentes formes d’organisation. Retours d’expérience.
  • Comment recruter et organiser la montée en compétences des équipes ?
 

La formation "Big Data : L'état de l'art" vous intéresse ?

Recevez gratuitement le programme de la formation par CAPGEMINI INSTITUT.

Les données personnelles recueillies ci-dessus sont destinées à Figaro Classifieds ainsi qu’aux organismes que vous avez sélectionnés afin qu’ils vous contactent et vous adressent leurs informations relatives à votre demande en lien avec l’activité de l’organisme. Voir plus

Les prochaines sessions

À Paris

Du 12/12/2019 au 13/12/2019

Du 26/03/2020 au 27/03/2020

Du 14/05/2020 au 15/05/2020

Centre

CAPGEMINI INSTITUT
147 Quai Président Roosevelt
92136 Issy les moulineaux cedex
> Voir la carte


Les internautes qui ont consulté cette annonce ont aussi consulté:

En résumé

Objectif

Certification / expertise

Durée

14 heure(s)

Coût

2005 € HT

Modes d'enseignement

En école ou centre de formation

Posez une question à notre responsable pédagogique

Recevez des formations similaires

Kelformation vous suggère des formations qui vous correspondent.

Inscrivez-vous et recevez directement les annonces par mail.

Les données personnelles recueillies ci-dessus sont destinées à Figaro Classifieds afin de vous fournir les services auxquels vous souscrivez et notamment vous envoyer des offres de formations correspondant à votre recherche. Voir plus