CAPGEMINI INSTITUT

Architectures de données Big Data : De Hadoop au NoSQL

Certification / expertise

14 heure(s)

2005 € HT

Organisme privé de formation continue

Consultez le site de l'organisme

Objectifs

Éclairer les professionnels de l’informatique sur leurs choix stratégiques en matière d’architectures Big Data, afin de pouvoir tirer pleinement profit des gisements de données à gérer dans le SI à la disposition de l’entreprise. Les aider à comprendre les concepts et les techniques à la base des architectures Big Data, ainsi que leur impact sur l’existant, et se repérer dans l’offre pléthorique du marché, où les nouveaux acteurs bousculent les grands éditeurs traditionnels. Meilleures pratiques pour réussir les projets Big Data.

Public visé

  • Décideurs informatiques.
  • Architectes.
  • Consultants.
  • Ingénieurs et chefs de projets.
  • Responsables fonctionnels.
  • Maîtrises d'ouvrage.

Programme

Big Data : Opportunités et enjeux :

Evolution vers la science des données :

  • Le continuum de la compréhension : Données, informations, connaissances, sagesse.
  • Les cinq « V » du Big Data : Volume, Variété, Vélocité, Véracité, Validité.
  • Données structurées : transactionnelles, décisionnelles, référentielles, scientifiques, etc.
  • Données non structurées : Web, documents, réseaux sociaux, Linked Open Data, IoT, etc.
  • Machine Learning et Data Analytics.
Les enjeux pour l’entreprise :
  • Enjeux techniques : Maîtrise du cycle de vie des données, réactivité face aux flux temps réel, protection des données personnelles, impact du RGPD et anonymisation.
  • Enjeux stratégiques : Mesure de la performance, exploration des données, analyse des comportements sociaux, expérimentation de
  • nouvelles questions.
  • Les meilleurs cas d’utilisation dans l’industrie.
  • Stratégie Big Data : Impact sur la gouvernance des données ?
  • Succès et échecs de projets Big Data.
Architectures parallèles :
  • La nouvelle hiérarchie de mémoires : RAM, flash, disque SSD, disque HDD.
  • Un teraoctet de RAM sur un chip : L’avènement du traitement de données in-memory ?
  • Processeurs multicoeurs, la combinaison CPU/GPU, la nouvelle hiérarchie du calcul parallèle.
  • Les architectures massivement parallèles (MPP) : Speed-up, scale-up, scale-out, élasticité.

Systèmes parallèles :

Architectures de données parallèles :

  • La pile logicielle du SGBD SQL : Requêtes décisionnelles et transactions, distribution.
  • Parallélisme de données : Inter-requête, interopération, intra-opération, pipeline.
  • Le stockage en cluster: DAS vs NAS vs SAN.
  • Architectures en cluster : Shared Disk vs Shared Nothing.
Techniques distribuées et parallèles :
  • Organisation des données : Stockage en ligne ou en colonne, sharding, indexation.
  • Transactions distribuées : Modèle ACID, protocole 2PC, tolérance aux pannes et scalabilité.
  • Réplication de données : Cohérence des copies, propagation des mises à jour.
  • Haute disponibilité et tolérance aux pannes : Le Failover, les points de sauvegarde pour requêtes lourdes.
  • Parallélisation des requêtes, optimisation et équilibrage de charge.
SGBD parallèles :
  • Produits principaux : Actian, IBM, Microsoft, Oracle Exadata, MySQL Cluster, SAP Sybase, Teradata, Vertica, ParAccel, GreenPlum.
  • Étude de cas : La base de données Walmart avec Teradata.

Architectures Big Data :

La pile logicielle Big Data :

  • Les niveaux fonctionnels : Stockage, organisation, traitement, intégration, indexation et analyse.
  • Comparaison avec SGBD relationnels.
L'architecture Apache Hadoop :
  • MapReduce et SQL-on-Hadoop, Hbase.
  • Gestion de ressources avec Yarn.
  • Coordination avec Zookeeper.
  • Hadoop Distributed File System (HDFS) : Intégration dans Yarn, tolérance aux fautes.
Indexation et recherche d’information dans le Big Data :
  • Techniques : Index, fichiers inverses, recherche par mot-clé, recherche par contenu.
  • Moteurs de recherche : Bing, Google Search, ElasticSearch, Exalead, Lucene, Indexma, Qwant, Splink.
  • Google Search: L’algorithme PageRank, l’architecture en Cluster Shared Nothing.
  • Étude de cas : Assurance qualité Monoprix avec Exalead.
Le web sémantique :
  • Exemple d’application phare : Google Knowledge Graph.
  • RDF (Resource Description Framework) et les ontologies.
  • Le langage de requêtes SPARQL.
  • Les triplestores : 4Store, AllegroGraph, Marklogic, Sesame, SparqlDB, Virtuoso, CumulusRDF, Seevl.

SGBD NoSQL :

Motivations :

  • La fin de l’approche « taille unique » du relationnel.
  • Scalabilité dans le Cloud.
  • Le théorème CAP : Analyse et impact.
SGBD clé-valeur :
  • Gestion de l’accès sur clé, parallélisme, tolérance aux fautes.
  • Systèmes clé-valeur : Amazon DynamoDB, Amazon SimpleDB, Apache Cassandra, Linkedin Voldemort.
  • Étude de cas : Supervision de réseau Orange avec Cassandra.
SGBD grandes tables :
  • Modèle de données : Table, orienté ligne/colonne, opérateurs ensemblistes.
  • Exemples : Hadoop Hbase, Google Bigtable, Apache Accumulo.
  • Étude de cas : Services financiers chez Scaled Risk avec Hbase.
SGBD documents :
  • Modèles de données JSON, le langage SQL++.
  • SGBD JSON : MongoDB, CouchBase, LinkedIn Espresso, etc.
  • XML/JSON dans les SGBD relationnels : IBM DB2, Oracle, SQLServer, SAP Sybase, MySQL, PostgreSQL.
  • Étude de cas : Vue 360° des assurés MetLife avec MongoDB.
SGBD graphes :
  • Modèle de données graphe : Opérateurs de parcours de graphes, langages de requêtes.
  • Exemples : Neo4J, AllegroGraph, InfiniteGraph.
  • Étude de cas : Intégration sociale et jeux en ligne chez GameSys avec Neo4J.
SGBD NewSQL :
  • Comment associer cohérence SQL et scalabilité NoSQL.
  • HTAP : OLAP+OLTP sur les mêmes données opérationnelles.
  • Les SGBD NewSQL/HTAP : CockroachDB, SAP HANA, Esgyn, LeanXcale, MemSQL, NuoDB, Splice Machine, Google Spanner, VoltDB.
  • Études de cas : La base Google AdWords avec F1/Spanner ; marketing de proximité chez IKEA avec LeanXcale.

Frameworks de programmation Big Data :

Le framework MapReduce :

  • Analyse de Big Data en mode batch.
  • Le modèle de données clé-valeur, les fonctions Map et Reduce, partitionnement de fichiers.
  • Architecture : Tolérance aux fautes et équilibrage de charge.
L’écosystème Hadoop :
  • Les fondements : HDFS, Yarn, MapReduce.
  • Les outils : Pig (interface Workflows), Hive (interface SQL).
  • Editeurs : Cloudera-Hortonworks, Datameer, Datastax, Greenplum HD, Talend, VMware.
Traitement des flux de données :
  • Les concepts : Data Streams, requêtes continues, données temporaires, fenêtre glissante.
  • Les outils : InfoSphere Streams, Kafka, Parstream, Samza, Storm, Streambase, StreamInsight.
  • Le projet Beymani : Détection de fraude en temps réel.
Le framework Spark :
  • Analyse de Big Data en mode interactif et itératif.
  • Extensions du modèle MapReduce : Le langage Scala, transformations et actions, Resilient Distributed Datasets.
  • Les outils : Spark SQL, Spark Streaming, MLlib (Machine Learning), GraphX (graphes).
  • Editeurs : Data Bricks, Apache, Cloudera-Hortonworks, Amazon EMR.
  • Étude de cas : Gestion de coupons chez Ericsson avec Cassandra et Spark.
Traitement des graphes :
  • Le modèle de calcul de graphes de Google Pregel.
  • Étude de cas : Gestion de 1 000 milliards de liens chez FaceBook avec Apache Giraph.

Architectures d’intégration de Big Data :

Intégration de données hétérogènes :

  • Intégration réelle (Data Warehouse) ou virtuelle (fédérateur de données).
  • Médiateur, adaptateur et ETL.
  • Intégration de schémas et d’ontologies : Les conflits sémantiques, le problème de la résolution d’entité.
  • Qualité des données, nettoyage, MDM.
  • L’offre produits et services.
Le Data Lake :
  • Problèmes avec les entrepôts de données : Développement ETL, schéma en écriture.
  • Apports : schéma en lecture, traitement de données multiworkload, retour sur investissement.
  • Enterprise Hadoop : Intégration, sécurité et gouvernance, outils BI.
  • Chargement de données parallèles : Exemple avec HDFS.
  • Étude de cas : Performance du marketing ciblé.
  • Meilleures pratiques.
Intégration du Big Data dans un Data Warehouse :
  • Nouveaux besoins en acquisition, organisation, analyse.
  • Place de Hadoop : Les ETL comme Splunk, accès HDFS avec tables externes SQL.
  • Exemples : HadoopDB, Microsoft HDInsight et Polybase, IBM Analytics Engine, Oracle Big Data Appliance.
  • Le Data Lake opérationnel : Traitement HTAP sur Big Data.
  • Les offres Big Data as a Service : Amazon EMR, Google BigQuery, Azure HDInsight, IBM Analytics for Apache Spark, Qubole, SAP Altiscale.
Méthodologie pour un projet Big Data :
  • Stratégie : Objectifs métiers, besoins en données, qualité des données.
  • Equipe : Rôles et compétences, cadre pour la gouvernance des données.
  • Outils : Le choix de développer du code ou utiliser.
  • Processus : Evolutivité et réutilisation.
  • Architecture : De la sandbox à l’architecture idéale.
  • Meilleures pratiques.
 

La formation "Architectures de données Big Data : De Hadoop au NoSQL" vous intéresse ?

Recevez gratuitement le programme de la formation par CAPGEMINI INSTITUT.

Les données personnelles recueillies ci-dessus sont destinées à Figaro Classifieds ainsi qu’aux organismes que vous avez sélectionnés afin qu’ils vous contactent et vous adressent leurs informations relatives à votre demande en lien avec l’activité de l’organisme. Voir plus

Les prochaines sessions

À Paris

Du 08/10/2020 au 09/10/2020

Centre

CAPGEMINI INSTITUT
147 Quai Président Roosevelt
92136 Issy les moulineaux cedex
> Voir la carte


Les internautes qui ont consulté cette annonce ont aussi consulté:

En résumé

Objectif

Certification / expertise

Durée

14 heure(s)

Coût

2005 € HT

Modes d'enseignement

En école ou centre de formation

Posez une question à notre responsable pédagogique

Recevez des formations similaires

Kelformation vous suggère des formations qui vous correspondent.

Inscrivez-vous et recevez directement les annonces par mail.

Les données personnelles recueillies ci-dessus sont destinées à Figaro Classifieds afin de vous fournir les services auxquels vous souscrivez et notamment vous envoyer des offres de formations correspondant à votre recherche. Voir plus