En continuant à naviguer sur ce site, vous acceptez l'utilisation des cookies afin de vous proposer des services et une offre adaptés à vos centres d'intérêts. En savoir plus

LEARNING TREE INTERNATIONAL

Analyse du Big Data avec Pig, Hive, et Impala

Certification / expertise

4 jour(s)

2220 € HT

Organisme privé de formation continue

Objectifs

À propos de cette formation : Cette formation vous apporte les connaissances pour exploiter Pig et Hive afin de préparer et d'analyser de grands ensembles de données dans Hadoop. La productivité est accrue en évitant un codage MapRéduce de niveau inférieur dans le sens où les programmeurs nettoient, filtrent et imposent une structure et interrogent des données pour obtenir plus d'informations de valeur. Cela permet de meilleures décision. Les requêtes à faible latence sont exécutées avec Impala et Shark.

Vous apprendrez à :

  • Manipuler des ensembles de données complexes stockés dans Hadoop sans avoir à écrire de code complexe avec Java.
  • Automatiser le transfert des données dans le stockage Hadoop avec Flume et Sqoop.
  • Filtrer les données avec les opérations Extract–Transform–Load (ETL) avec Pig.
  • Interroger plusieurs ensembles de données pour une analyse avec Pig et Hive.

Programme

L’écosystème Hadoop :

  • Vue d’ensemble de Hadoop.
  • Analyser les composants Hadoop.
  • Définir l’architecture Hadoop.

Explorer HDFS et MapReduce :

Stocker les données dans HDFS :

  • Réaliser un stockage fiable et sécurisé.
  • Surveiller les mesures du stockage.
  • Contrôler HDFS à partir de la ligne de commande.
Traitement parallèle avec MapReduce :
  • Détailler l’approche MapReduce.
  • Transférer les algorythmes et non les données.
  • Décomposer les étapes clés d’une tâche MapReduce.
Automatiser le transfert des données :
  • Faciliter l’entrée et la sortie des données.
  • Agréger les données avec Flume.
  • Configurer le fan in et le fan out des données.
  • Déplacer les données relationnelles avec Sqoop.

Exécuter les flux de données avec Pig :

Décrire les caractéristiques d’Apache Pig :

  • Exposer les différences entre Pig et MapReduce.
  • Identifier les cas d’utilisation de Pig.
  • Identifier les configurations clés de Pig.
Structurer les données non structurées :
  • Représenter les données dans le modèle de données de Pig.
  • Exécuter les commandes Pig Latin au Grunt Shell.
  • Exprimer les transformations dans la syntaxe Pig Latin.
  • Appeler les fonctions de chargement et de stockage.

Réaliser ETL avec Pig :

Transformer les données avec les opérateurs relationnels :

  • Créer des nouvelles relations avec des jointures.
  • Réduire la taille des données par échantillonnage.
  • Exploiter Pig et les fonctions définies par l’utilisateur.
Filtrer les données avec Pig :
  • Consolider les ensembles de données avec les unions.
  • Partitionner les ensembles de données avec les splits.
  • Ajouter des paramètres dans des scripts Pig.

Manipuler les données avec Hive :

Exploiter les avantages métier de Hive :

  • Factoriser Hive en composants.
  • Imposer la structure sur les données avec Hive.
Organiser les données dans Hive :
  • Créer des bases de données et des tables Hive.
  • Exposer les différences entre les types de données dans Hive.
  • Charger et stocker les données efficacement avec SerDes.
Concevoir la disposition des données pour la performance :
  • Remplir les tables à partir de requêtes.
  • Partitionner les tables de Hive pour des requêtes optimales.
  • Composer des requêtes HiveQL.

Extraire de la valeur métier avec HiveQL :

Réaliser des jointures sur des données non structurées :

  • Distinguer les jointures disponibles dans Hive.
  • Optimiser la structure des jointures pour les performances.
Repousser les limites de HiveQL :
  • Trier, répartir et regrouper des données.
  • Réduire la complexité des requêtes avec les vues.
  • Améliorer la performance des requêtes avec les index.
Déployer Hive en production :
  • Concevoir les schémas de Hive.
  • Établir la compression des données.
  • Déboguer les scripts de Hive.
Rationaliser la gestion du stockage avec HCatalog :
  • Unifier la vue des données avec HCatalog.
  • Exploiter HCatalog pour accéder au metastore Hive.
  • Communiquer via les interfaces HCatalog.
  • Remplir une table Hive à partir de Pig.

Interagir avec les données Hadoop en temps réel :

Traitement parallèle avec Impala :

  • Décomposer les composants fondamentaux d’Impala.
  • Soumettre des requêtes à Impala.
  • Accéder aux données Hive à partir d’Impala.
Lancer le framework Spark :
  • Réduire le temps d’accès aux données avec Shark.
  • Interroger les données Hive avec Shark.

 

Cette formation vous intéresse ? Demandez à vous faire rappeler !

Les prochaines sessions

À Paris

Sur l'année 2017

Centre

LEARNING TREE INTERNATIONAL
33 avenue du Maine
75015 Paris 15 ème arrondissement


Les internautes qui ont consulté cette annonce ont aussi consulté:

En résumé

Objectif

Certification / expertise

Durée

4 jour(s)

Coût

2220 € HT

Modes d'enseignement

En école ou centre de formation

Posez une question à notre responsable pédagogique
Recevez des formations similaires

Kelformation vous suggère des formations qui vous correspondent.

Inscrivez-vous et recevez directement les annonces par mail.