image

durée formation certifiante Spark

3 jours / 21 heures

Formation BIG DATA : Spark

Disponible en Inter et Intra entreprise.

formation certifiante CNCP CPF Spark

Formation certifiante recensée à l'inventaire CNCP et éligible CPF

Module BIG DATA : Spark faisant parti de la

certification BIG DATA.

date prochaine session formation informatique et numérique

Prochaine dates et sessions

Pour connaitre les dates de la prochaine session dans la ville la plus proche,

CLIQUEZ ICI.

Spark

Spark est le Framework de référence de Big Data. Il Fournit une interface de programmation d’applications centrée sur une structure de données appelée l’ensemble de données distribué RDD.
C’est aussi une solution efficace pour le traitement de tout type de données non structurées.

Les objectifs

A l’issue de la formation « BIG DATA : Spark », les apprenants auront les capacités de :
  1. Comprendre le besoin de Spark dans le traitement des données
  2. Comprendre l'architecture Spark et comment elle distribue des calculs aux nœuds du cluster
  3. Familiarisez-vous avec l'installation / configuration / mise en page de Spark
  4. Utiliser Spark pour des opérations interactives et ponctuelles
  5. Utiliser Dataset / DataFrame / Spark SQL pour traiter efficacement les données structurées
  6. Comprendre les notions de base des RDD (Resilient Distributed Datasets) et le partitionnement, le pipelining et les calculs de données
  7. Comprendre la mise en cache des données de Spark et son utilisation
  8. Comprendre les implications et les optimisations de performance lors de l'utilisation de Spark
  9. Familiarisez-vous avec Spark Graph Processing et l'apprentissage par machine Spark ML.

 

Le public

La formation certifiante « BIG DATA : Spark », s’adresse à tout public salarié, demandeur d’emploi ou en reconversion professionnelle et souhaitant acquérir des compétences en BIG DATA, notamment:
  1. Directeurs/chefs de projet ou responsable métier
  2. Responsable système d’informations
  3. Développeurs informatiques
  4. Consultants en business intelligence
  5. Ingénieurs d’étude, de recherche et développement
  6. Architecte système et logiciel
  7. Consultants techniques
  8. Consultants business
  9. Statisticiens et Mathématiciens
  10. Data scientist (analyse de données) ou Data miner (fouilleur des données)
  11. Tout développeur ou informaticien souhaitant développer des compétences en analyse de données et BIG DATA
 

Les prérequis

Connaissance  des  langages  Scala  et  Python  est  un  plus  et  également  des connaissances en SQL.
Les utilitaires
Pour le bon déroulement de la formation BIG DATA : Spark, voici une liste non exhaustive des outils indispensables :
  1. Sqoop
  2. Flume
  3. SQL
Programme détaillé

Comprendre les fondamentaux de Spark et du développement Scala.   

Scala Ramp Up (Facultatif) 

  1. Scala Introduction, variables, types de données, contrôle du flux
  2. L'Interpréteur Scala
  3. Collections et leurs méthodes standard
  4. Fonctions, méthodes, fonctions littéraires
  5. Classe, objet, traits.

Introduction à Spark  

  1. Vue d'ensemble, Motivations, Spark Systems
  2. Ecosystème Spark
  3. Spark vs. Hadoop
  4. Environnement typique de déploiement et d'utilisation de Spark.

RDDs et Spark Architecture    

  1. Concepts RDD, partitions, cycle de vie, évaluation mode Lazy
  2. Utilisation de RDD - Création et transformation (carte, filtre, etc.)
  3. Mise en cache - Concepts, Type de stockage, Lignes directrices.

Savoir créer une application spark et utilisez Dataset / DataFrame / Spark SQL pour traiter efficacement les données structurées.   

DataSets / DataFrames et Spark SQL 

  1. Introduction et utilisation
  2. Création et utilisation d'un DataSet
  3. Travailler avec JSON
  4. Utilisation de DSL DataSet
  5. Utilisation de SQL avec Spark
  6. Formats de données
  7. Optimisations
  8. DataSets vs. DataFrames vs. RDDs.

Création d'applications Spark  

  1. Vue d'ensemble, Code de base, SparkConf
  2. Création et utilisation d'un SparkContext / SparkSession
  3. Création et exécution d'applications
  4. Cycle de vie des applications
  5. Gestionnaires de grappe
  6. Enregistrement et débogage.

Spark Streaming    

  1. Vue d'ensemble
  2. Streaming structuré
  3. DStreams
  4. Transformations architecturales, Stateless, Stateful et autres
  5. Spark Streaming API
  6. Programmation et transformations.

Optimisation de Spark et utilisation des outils associés.   

Caractéristiques de performance et optimisation 

  1. The Spark UI
  2. Dépendances
  3. Minimiser le traitement des données
  4. Mise en cache - Concepts, Type de stockage, Lignes directrices
  5. Utilisation de la mise en cache
  6. Utilisation des variables de diffusion.

(Facultatif) : Aperçu de Spark GraphX  

  1. Introduction
  2. Construire des graphiques simples
  3. GraphX API
  4. Exemple de chemin le plus court.

(Facultatif) : Aperçu MLLib    

  1. Introduction
  2. Vecteurs caractéristiques
  3. Clustering / Groupement, K-Means
  4. Recommandations
  5. Classifications.

Besoin de devis/ Renseignements

Veuillez remplir le formulaire de contact

Merci de remplir le formulaire de contact. Un de nos conseillers traitera votre demande rapidement.

Please type your full name.
Invalid email address.
Veuillez saisir votre numéro de téléphone.
Please tell us how big is your company.
Entrer le nom de votre société si vous êtes salarié.
Please tell us how big is your company.
Entrée non valide
Robot Actualisation Entrée non valide