Formation Big Data : Hadoop

Présentation de la formation

Hadoop est un framework libre et open source écrit en Java destiné à faciliter la création d’applications distribuées au niveau du stockage des données et de leur traitement et échelonnables.

Hadoop permet d’exécuter des applications sur des systèmes avec des milliers de nœuds matériels et de gérer des milliers de téraoctets de données. Son système de fichiers distribué facilite les taux de transfert de données rapides entre les nœuds et permet au système de continuer à fonctionner en cas de défaillance d’un nœud.

Programme de la formation

Objectifs pédagogiques

  • Comprendre les principes de l’informatique parallèle
  • Comprendre l’architecture Hadoop (HDFS et MapReduce)
  • Utiliser des outils Big Data supplémentaires (Pig, Hive, HBase, etc.)
  • Apprendre les bonnes pratiques de Big Data
  • Définir l’architecture du projet Big Data
  • Comprendre et utiliser NoSQL, Mahout et Oozie.

Pré-requis

  • Connaissance de base des lignes de commande Unix/Linux requise.
  • Être à l’aise en programmation.
  • La connaissance de base de SQL est un plus.
  • Aucune expérience préalable avec Hadoop n’est nécessaire.

Contenu de la formation

Introduction 

  1. Hadoop histoire et concepts
  2. Écosystème
  3. Distributions
  4. Architecture de haut niveau
  5. Hadoop mythes
  6. Défis Hadoop (matériel / logiciel).

HDFS  

  1. Concepts (échelle horizontale, réplication, localisation des données, prise en charge du rack)
  2. Architecture
  3. Namenode (fonction, stockage, méta-données du système de fichiers et rapports de blocs)
  4. Namenode secondaire
  5. Namenode en mode veille
  6. Nœud de données
  7. Communications
  8. Gestionnaire / équilibreur de blocs
  9. Vérification de l’état / sécurité
  10. Chemin de lecture / écriture
  11. Navigation dans l’interface utilisateur HDFS
  12. Interaction de ligne de commande avec HDFS
  13. Abstraction du système de fichiers
  14. WebHDFS
  15. Lecture / écriture de fichiers à l’aide de l’API Java
  16. Obtention de données dans / hors de HDFS (Flume, Sqoop)
  17. Obtenir des statistiques HDFS
  18. Namenode et Federation
  19. Roadmap de HDFS . 

MapReduce 

  1. Programmation parallèle avant MapReduce
  2. MapReduce concepts
  3. Daemons: jobtracker / tasktracker
  4. Phases: Driver, mapper, shuffle / tri et reducer
  5. Premier emploi MapReduce
  6. MapReduce UI
  7. Compteurs
  8. Cache distribué
  9. Partitionnement
  10. Configuration MapReduce
  11. Configuration des job
  12. Types et formats pour le MapReduce
  13. Tri
  14. Ordonnancement des Jobs
  15. MapReduce les bonnes pratiques
  16. MRUnit
  17. Optimiser MapReduce
  18. Penser à MapReduce
  19. YARN: architecture et utilisation.

Pig 

  1. Introduction: principes et cas d’utilisation
  2. Pig versus MapReduce.

Hive 

  1. Introduction: principes et cas d’utilisation
  2. Environnement et configuration
  3. Hive et métadonnées
  4. Keywords pour Hive.

HBase 

  1. Histoire et concepts
  2. Architecture
  3. HBase versus RDBMS
  4. HBase shell
  5. HBase Java API
  6. Lecture / Ecriture
  7. Conception de schéma.

Compétences en Big Data du monde réel et un hackathon 

  1. Les modèles de conception NoSQL: allant de SQL à NoSQL
  2. Collecte de données Smart Meter avec Flume
  3. HDFS et HBase
  4. Analyser les données des compteurs intelligents avec Pig and Hive
  5. Analyse intelligente avec Mahout
  6. Planification du flux de travail complet avec Oozie.

Public

La formation Hadoop s’adresse Développeur, Analyste et Statisticien

Devis

captcha

Formation Big Data : Hadoop

Formation Big Data Hadoop

Infos Pratiques

Durée : 3 jours
Prix : A définir
Lieu: A définir

Contactez Nous

captcha

prochaines formations

Comments are closed.