Big Data Hadoop och Spark-utvecklare - eLearning

4.900,00 SEK

  • 50 hours
eLearning

Big Data Hadoop and Spark Developer Course är utformad för att ge dig en djupgående förståelse för Apache Spark-grundläggande och Hadoop-ramverket, vilket ger dig de färdigheter som behövs för att utmärka dig som Big Data Developer. Genom detta program kommer du att få praktisk kunskap om Hadoop-ekosystemet och dess integration med Spark, så att du kan bearbeta och analysera massiva datamängder på ett effektivt sätt. Lär dig hur de olika komponenterna i Hadoop, som HDFS och MapReduce, passar sömlöst in i bearbetningscykeln för stora datamängder, vilket förbereder dig för framgång i dagens datadrivna värld.

Nyckelfunktioner

Språk

Kursen och materialet är på engelska

Nivå

Mellannivå för blivande dataingenjör

Tillgång

1 års tillgång till självstudieplattformen för eLearning dygnet runt

11 timmar av videomaterial

med rekommenderad studietid på 50 timmar

Praktiker

Simuleringstest, Virtuellt laboratorium och Projekt vid kursens slut

Inget prov

Ingen tentamen för kursen men studenten kommer att få ett intyg om genomförd utbildning

Hero

Lärandemål

I denna kurs för Big Data Hadoop och Spark-utvecklare kommer du att lära dig att:

Hadoop-ekosystemet

Lär dig att navigera i Hadoop-ekosystemet och förstå hur du optimerar dess användning.

Importera data

Importera data med hjälp av Sqoop, Flume och Kafka.

Kopp

Implementera partitionering, bucketing och indexering i Hive.

Apache Spark

Arbeta med RDD i Apache Spark.

Dataströmning

Bearbeta data i realtidsströmmar och utför DataFrame-operationer i Spark med SQL-förfrågningar.

Genomförande

Implementera användardefinierade funktioner (UDF) och användardefinierade attributfunktioner (UDAF) i Spark.

Kurstidslinje

Hero
  1. Introduktion till Big Data och Hadoop

    Lektion 01

    - Introduktion till Big Data och Hadoop
    - Introduktion till Big Data
    - Big Data-analys
    - Vad är Big Data?
    - De fyra V:na inom Big Data
    - Fallstudie: Royal Bank of Scotland
    - Utmaningar med traditionella system
    - Distribuerade system
    - Introduktion till Hadoop
    - Komponenter i Hadoops ekosystem Del Ett
    - Komponenter i Hadoops ekosystem Del Två
    - Komponenter i Hadoops ekosystem Del Tre
    - Kommersiella Hadoop-distributioner
    - Demo: Genomgång av Simplilearn Cloudlab
    - Viktiga slutsatser
    - Kunskapskontroll

  2. Hadoop-arkitektur distribuerad lagring (HDFS) och YARN

    Lektion 02

    - Hadoop-arkitektur Distribuerad lagring (HDFS) och YARN
    - Vad är HDFS
    - Behovet av HDFS
    - Vanligt filsystem jämfört med HDFS
    - Egenskaper hos HDFS
    - HDFS-arkitektur och komponenter
    - Implementeringar av kluster med hög tillgänglighet
    - HDFS-komponent Filsystemets namnrymd
    - Data Block Split
    - Topologi för datareplikering
    - HDFS kommandorad
    - Demo: Vanliga HDFS-kommandon
    - Praktikprojekt: HDFS kommandorad
    - Introduktion till Yarn
    - Användningsfall för Yarn
    - Yarn och dess arkitektur
    - Resurshanterare
    - Hur resurshanteraren fungerar
    - Application Master
    - Hur Yarn kör en applikation
    - Verktyg för Yarn-utvecklare
    - Demo: Genomgång av kluster Del Ett
    - Demo: Genomgång av kluster Del Två
    - Viktiga slutsatser Kunskapskontroll
    - Praktikprojekt: Hadoop-arkitektur, distribuerad lagring (HDFS) och Yarn

  3. Datainläsning i stora datasystem och ETL

    Lektion 03

    - Data Ingestion Into Big Data Systems and Etl
    - Data Ingestion Overview Part One
    - Data Ingestion Overview Part Two
    - Apache Sqoop
    - Sqoop and Its Uses
    - Sqoop Processing
    - Sqoop Import Process
    - Sqoop Connectors
    - Demo: Importing and Exporting Data from MySQL to HDFS
    - Practice Project: Apache Sqoop
    - Apache Flume
    - Flume Model
    - Scalability in Flume
    - Components in Flume’s Architecture
    - Configuring Flume Components
    - Demo: Ingest Twitter Data
    - Apache Kafka Aggregating User Activity Using Kafka
    - Kafka Data Model
    - Partitions
    - Apache Kafka Architecture
    - Demo: Setup Kafka Cluster
    - Producer Side API Example
    - Consumer Side API
    - Consumer Side API Example
    - Kafka Connect
    - Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Data Ingestion Into Big Data Systems and ETL

  4. Distribuerad bearbetning MapReduce-ramverk och Pig

    Lektion 04

    - Distributed Processing Mapreduce Framework and Pig
    - Distributed Processing in Mapreduce
    - Word Count Example
    - Map Execution Phases
    - Map Execution Distributed Two Node Environment
    - Mapreduce Jobs
    - Hadoop Mapreduce Job Work Interaction
    - Setting Up the Environment for Mapreduce Development
    - Set of Classes
    - Creating a New Project
    - Advanced Mapreduce
    - Data Types in Hadoop
    - Output formats in Mapreduce
    - Using Distributed Cache
    - Joins in MapReduce
    - Replicated Join
    - Introduction to Pig
    - Components of Pig
    - Pig Data Model
    - Pig Interactive Modes
    - Pig Operations
    - Various Relations Performed by Developers
    - Demo: Analyzing Web Log Data Using Mapreduce
    - Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig

    - Demo: Wordcount
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Distributed Processing - Mapreduce Framework and Pig

  5. Apache Hive

    Lektion 05

    - Apache Hive
    - Hive SQL over Hadoop MapReduce
    - Hive Architecture
    - Interfaces to Run Hive Queries
    - Running Beeline from Command Line
    - Hive Metastore
    - Hive DDL and DML
    - Creating New Table
    - Data Types Validation of Data
    - File Format Types
    - Data Serialization
    - Hive Table and Avro Schema
    - Hive Optimization Partitioning Bucketing and Sampling
    - Non-Partitioned Table
    - Data Insertion
    - Dynamic Partitioning in Hive
    - Bucketing
    - What Do Buckets Do?
    - Hive Analytics UDF and UDAF
    - Other Functions of Hive
    - Demo: Real-time Analysis and Data Filtration
    - Demo: Real-World Problem
    - Demo: Data Representation and Import Using Hive
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Apache Hive

  6. NoSQL-databaser HBase

    Lektion 06

    - NoSQL Databases HBase
    - NoSQL Introduction
    - Demo: Yarn Tuning
    - Hbase Overview
    - Hbase Architecture
    - Data Model
    - Connecting to HBase
    - Practice Project: HBase Shell
    - Key Takeaways
    - Knowledge Check
    - Practice Project: NoSQL Databases - HBase

  7. Grundläggande om funktionell programmering och Scala

    Lektion 07

    - Grundläggande om funktionell programmering och Scala
    - Introduktion till Scala
    - Demo: Installation av Scala
    - Funktionell programmering
    - Programmering med Scala
    - Demo: Grundläggande literaler och aritmetisk programmering
    - Demo: Logiska operatorer
    - Typinferens, klasser, objekt och funktioner i Scala
    - Demo: Typinferens, anonyma funktioner och klass
    - Samlingar
    - Typer av samlingar
    - Demo: Fem typer av samlingar
    - Demo: Operationer på lista i Scala REPL
    - Demo: Funktioner i Scala REPL
    - Viktiga slutsatser
    - Kunskapskontroll
    - Praktikprojekt: Apache Hive

  8. Apache Spark nästa generations ramverk för stordata

    Lektion 08

    - Apache Spark Next-Generation Big Data Framework
    - History of Spark
    - Limitations of Mapreduce in Hadoop
    - Introduction to Apache Spark
    - Components of Spark
    - Application of In-memory Processing
    - Hadoop Ecosystem vs Spark
    - Advantages of Spark
    - Spark Architecture
    - Spark Cluster in Real World
    - Demo: Running a Scala Programs in Spark Shell
    - Demo: Setting Up Execution Environment in IDE
    - Demo: Spark Web UI
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Apache Spark Next-Generation Big Data Framework

  9. Spark Core bearbetar RDD

    Lektion 09

    - Introduction to Spark RDD
    - RDD in Spark
    - Creating Spark RDD
    - Pair RDD
    - RDD Operations
    - Demo: Spark Transformation Detailed Exploration Using Scala Examples
    - Demo: Spark Action Detailed Exploration Using Scala
    - Caching and Persistence
    - Storage Levels
    - Lineage and DAG
    - Need for DAG
    - Debugging in Spark
    - Partitioning in Spark
    - Scheduling in Spark
    - Shuffling in Spark
    - Sort Shuffle Aggregating Data With Paired RDD
    - Demo: Spark Application With Data Written Back to HDFS and Spark UI
    - Demo: Changing Spark Application Parameters
    - Demo: Handling Different File Formats
    - Demo: Spark RDD With Real-world Application
    - Demo: Optimizing Spark Jobs
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark Core Processing RDD

  10. Spark SQL bearbetar DataFrames

    Lektion 10

    - Spark SQL Processing DataFrames
    - Spark SQL Introduction
    - Spark SQL Architecture
    - Dataframes
    - Demo: Handling Various Data Formats
    - Demo: Implement Various Dataframe Operations
    - Demo: UDF and UDAF
    - Interoperating With RDDs
    - Demo: Process Dataframe Using SQL Query
    - RDD vs Dataframe vs Dataset
    - Practice Project: Processing Dataframes
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark SQL - Processing Dataframes

  11. Modellering av BigData med Spark MLib

    Lektion 11

    - Spark Mlib Modeling Big Data With Spark
    - Role of Data Scientist and Data Analyst in Big Data
    - Analytics in Spark
    - Machine Learning
    - Supervised Learning
    - Demo: Classification of Linear SVM
    - Demo: Linear Regression With Real World Case Studies
    - Unsupervised Learning
    - Demo: Unsupervised Clustering K-means
    - Reinforcement Learning
    - Semi-supervised Learning
    - Overview of Mlib
    - Mlib Pipelines
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark Mlib - Modelling Big data With Spark

  12. Streambehandlingsramverk och Spark Streaming

    Lektion 12

    - Översikt av streaming
    - Realtidsbearbetning av stora datamängder
    - Arkitekturer för databearbetning
    - Demo: Realtidsdatabearbetning med Spark Streaming
    - Demo: Skriva Spark Streaming-applikation
    - Introduktion till DStreams
    - Transformationer på DStreams
    - Designmönster för användning av Foreachrdd
    - Tillståndsoperationer
    - Fönsteroperationer
    - Sammanslagningsoperationer Stream-dataset Join
    - Demo: Fönsterhantering av realtidsdatabearbetning av streamingkällor
    - Demo: Bearbetning av Twitter-strömmande data
    - Strukturerad Spark Streaming-
    - Användningsfall banktransaktioner
    - Arkitekturmodell för strukturerad streaming och dess komponenter
    - Utmatningssänkor
    - API:er för strukturerad streaming
    - Konstruktion av kolumner i strukturerad streaming
    - Fönsteroperationer på händelsetid
    - Användningsfall
    - Demo: Streaming-pipeline
    - Praktikprojekt: Spark Streaming
    - Viktiga slutsatser
    - Kunskapskontroll
    - Praktikprojekt: Streambehandlingsramverk och Spark Streaming

  13. Spark GraphX

    Lektion 13

    - Spark GraphX
    - Introduction to Graph
    - GraphX in Spark
    - GraphX Operators
    - Join Operators
    - GraphX Parallel System
    - Algorithms in Spark
    - Pregel API
    - Use Case of GraphX
    - Demo: GraphX Vertex Predicate
    - Demo: Page Rank Algorithm
    - Key Takeaways
    - Knowledge Check
    - Practice Project: Spark GraphX Project Assistance

Stor data hadoop-kurs

Målgrupp

Idealisk för ett brett spektrum av yrkesverksamma och privatpersoner som vill främja sin karriär inom stordataanalys, dataingenjörskonst och datavetenskap.

Förkunskaper: Det rekommenderas att du har kunskaper i Core Java och SQL

Analytiker inom data

Seniora IT-professionella

Test- och stordatorproffs

Datahanteringsproffs

Affärsintelligensspecialister

Projektledare

Examenstagare som vill börja en karriär inom stordataanalys

Börja nu

Vanliga frågor

Behöver du en företagslösning eller integration av LMS?

Hittade du inte kursen eller programmet som skulle passa för ditt företag? Behöver du LMS-integration? Skriv till oss! Vi löser det!

;