Big Data Hadoop och Spark-utvecklare - eLearning
4.900,00 SEK
- 50 hours
Big Data Hadoop and Spark Developer Course är utformad för att ge dig en djupgående förståelse för Apache Spark-grundläggande och Hadoop-ramverket, vilket ger dig de färdigheter som behövs för att utmärka dig som Big Data Developer. Genom detta program kommer du att få praktisk kunskap om Hadoop-ekosystemet och dess integration med Spark, så att du kan bearbeta och analysera massiva datamängder på ett effektivt sätt. Lär dig hur de olika komponenterna i Hadoop, som HDFS och MapReduce, passar sömlöst in i bearbetningscykeln för stora datamängder, vilket förbereder dig för framgång i dagens datadrivna värld.
Nyckelfunktioner
Språk
Kursen och materialet är på engelska
Nivå
Mellannivå för blivande dataingenjör
Tillgång
1 års tillgång till självstudieplattformen för eLearning dygnet runt
11 timmar av videomaterial
med rekommenderad studietid på 50 timmar
Praktiker
Simuleringstest, Virtuellt laboratorium och Projekt vid kursens slut
Inget prov
Ingen tentamen för kursen men studenten kommer att få ett intyg om genomförd utbildning

Lärandemål
I denna kurs för Big Data Hadoop och Spark-utvecklare kommer du att lära dig att:
Hadoop-ekosystemet
Lär dig att navigera i Hadoop-ekosystemet och förstå hur du optimerar dess användning.
Importera data
Importera data med hjälp av Sqoop, Flume och Kafka.
Kopp
Implementera partitionering, bucketing och indexering i Hive.
Apache Spark
Arbeta med RDD i Apache Spark.
Dataströmning
Bearbeta data i realtidsströmmar och utför DataFrame-operationer i Spark med SQL-förfrågningar.
Genomförande
Implementera användardefinierade funktioner (UDF) och användardefinierade attributfunktioner (UDAF) i Spark.
Kurstidslinje

Introduktion till Big Data och Hadoop
Lektion 01
- Introduktion till Big Data och Hadoop
- Introduktion till Big Data
- Big Data-analys
- Vad är Big Data?
- De fyra V:na inom Big Data
- Fallstudie: Royal Bank of Scotland
- Utmaningar med traditionella system
- Distribuerade system
- Introduktion till Hadoop
- Komponenter i Hadoops ekosystem Del Ett
- Komponenter i Hadoops ekosystem Del Två
- Komponenter i Hadoops ekosystem Del Tre
- Kommersiella Hadoop-distributioner
- Demo: Genomgång av Simplilearn Cloudlab
- Viktiga slutsatser
- KunskapskontrollHadoop-arkitektur distribuerad lagring (HDFS) och YARN
Lektion 02
- Hadoop-arkitektur Distribuerad lagring (HDFS) och YARN
- Vad är HDFS
- Behovet av HDFS
- Vanligt filsystem jämfört med HDFS
- Egenskaper hos HDFS
- HDFS-arkitektur och komponenter
- Implementeringar av kluster med hög tillgänglighet
- HDFS-komponent Filsystemets namnrymd
- Data Block Split
- Topologi för datareplikering
- HDFS kommandorad
- Demo: Vanliga HDFS-kommandon
- Praktikprojekt: HDFS kommandorad
- Introduktion till Yarn
- Användningsfall för Yarn
- Yarn och dess arkitektur
- Resurshanterare
- Hur resurshanteraren fungerar
- Application Master
- Hur Yarn kör en applikation
- Verktyg för Yarn-utvecklare
- Demo: Genomgång av kluster Del Ett
- Demo: Genomgång av kluster Del Två
- Viktiga slutsatser Kunskapskontroll
- Praktikprojekt: Hadoop-arkitektur, distribuerad lagring (HDFS) och YarnDatainläsning i stora datasystem och ETL
Lektion 03
- Data Ingestion Into Big Data Systems and Etl
- Data Ingestion Overview Part One
- Data Ingestion Overview Part Two
- Apache Sqoop
- Sqoop and Its Uses
- Sqoop Processing
- Sqoop Import Process
- Sqoop Connectors
- Demo: Importing and Exporting Data from MySQL to HDFS
- Practice Project: Apache Sqoop
- Apache Flume
- Flume Model
- Scalability in Flume
- Components in Flume’s Architecture
- Configuring Flume Components
- Demo: Ingest Twitter Data
- Apache Kafka Aggregating User Activity Using Kafka
- Kafka Data Model
- Partitions
- Apache Kafka Architecture
- Demo: Setup Kafka Cluster
- Producer Side API Example
- Consumer Side API
- Consumer Side API Example
- Kafka Connect
- Demo: Creating Sample Kafka Data Pipeline Using Producer and Consumer
- Key Takeaways
- Knowledge Check
- Practice Project: Data Ingestion Into Big Data Systems and ETLDistribuerad bearbetning MapReduce-ramverk och Pig
Lektion 04
- Distributed Processing Mapreduce Framework and Pig
- Distributed Processing in Mapreduce
- Word Count Example
- Map Execution Phases
- Map Execution Distributed Two Node Environment
- Mapreduce Jobs
- Hadoop Mapreduce Job Work Interaction
- Setting Up the Environment for Mapreduce Development
- Set of Classes
- Creating a New Project
- Advanced Mapreduce
- Data Types in Hadoop
- Output formats in Mapreduce
- Using Distributed Cache
- Joins in MapReduce
- Replicated Join
- Introduction to Pig
- Components of Pig
- Pig Data Model
- Pig Interactive Modes
- Pig Operations
- Various Relations Performed by Developers
- Demo: Analyzing Web Log Data Using Mapreduce
- Demo: Analyzing Sales Data and Solving Kpis Using Pig Practice Project: Apache Pig- Demo: Wordcount
- Key Takeaways
- Knowledge Check
- Practice Project: Distributed Processing - Mapreduce Framework and PigApache Hive
Lektion 05
- Apache Hive
- Hive SQL over Hadoop MapReduce
- Hive Architecture
- Interfaces to Run Hive Queries
- Running Beeline from Command Line
- Hive Metastore
- Hive DDL and DML
- Creating New Table
- Data Types Validation of Data
- File Format Types
- Data Serialization
- Hive Table and Avro Schema
- Hive Optimization Partitioning Bucketing and Sampling
- Non-Partitioned Table
- Data Insertion
- Dynamic Partitioning in Hive
- Bucketing
- What Do Buckets Do?
- Hive Analytics UDF and UDAF
- Other Functions of Hive
- Demo: Real-time Analysis and Data Filtration
- Demo: Real-World Problem
- Demo: Data Representation and Import Using Hive
- Key Takeaways
- Knowledge Check
- Practice Project: Apache HiveNoSQL-databaser HBase
Lektion 06
- NoSQL Databases HBase
- NoSQL Introduction
- Demo: Yarn Tuning
- Hbase Overview
- Hbase Architecture
- Data Model
- Connecting to HBase
- Practice Project: HBase Shell
- Key Takeaways
- Knowledge Check
- Practice Project: NoSQL Databases - HBaseGrundläggande om funktionell programmering och Scala
Lektion 07
- Grundläggande om funktionell programmering och Scala
- Introduktion till Scala
- Demo: Installation av Scala
- Funktionell programmering
- Programmering med Scala
- Demo: Grundläggande literaler och aritmetisk programmering
- Demo: Logiska operatorer
- Typinferens, klasser, objekt och funktioner i Scala
- Demo: Typinferens, anonyma funktioner och klass
- Samlingar
- Typer av samlingar
- Demo: Fem typer av samlingar
- Demo: Operationer på lista i Scala REPL
- Demo: Funktioner i Scala REPL
- Viktiga slutsatser
- Kunskapskontroll
- Praktikprojekt: Apache HiveApache Spark nästa generations ramverk för stordata
Lektion 08
- Apache Spark Next-Generation Big Data Framework
- History of Spark
- Limitations of Mapreduce in Hadoop
- Introduction to Apache Spark
- Components of Spark
- Application of In-memory Processing
- Hadoop Ecosystem vs Spark
- Advantages of Spark
- Spark Architecture
- Spark Cluster in Real World
- Demo: Running a Scala Programs in Spark Shell
- Demo: Setting Up Execution Environment in IDE
- Demo: Spark Web UI
- Key Takeaways
- Knowledge Check
- Practice Project: Apache Spark Next-Generation Big Data FrameworkSpark Core bearbetar RDD
Lektion 09
- Introduction to Spark RDD
- RDD in Spark
- Creating Spark RDD
- Pair RDD
- RDD Operations
- Demo: Spark Transformation Detailed Exploration Using Scala Examples
- Demo: Spark Action Detailed Exploration Using Scala
- Caching and Persistence
- Storage Levels
- Lineage and DAG
- Need for DAG
- Debugging in Spark
- Partitioning in Spark
- Scheduling in Spark
- Shuffling in Spark
- Sort Shuffle Aggregating Data With Paired RDD
- Demo: Spark Application With Data Written Back to HDFS and Spark UI
- Demo: Changing Spark Application Parameters
- Demo: Handling Different File Formats
- Demo: Spark RDD With Real-world Application
- Demo: Optimizing Spark Jobs
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Core Processing RDDSpark SQL bearbetar DataFrames
Lektion 10
- Spark SQL Processing DataFrames
- Spark SQL Introduction
- Spark SQL Architecture
- Dataframes
- Demo: Handling Various Data Formats
- Demo: Implement Various Dataframe Operations
- Demo: UDF and UDAF
- Interoperating With RDDs
- Demo: Process Dataframe Using SQL Query
- RDD vs Dataframe vs Dataset
- Practice Project: Processing Dataframes
- Key Takeaways
- Knowledge Check
- Practice Project: Spark SQL - Processing DataframesModellering av BigData med Spark MLib
Lektion 11
- Spark Mlib Modeling Big Data With Spark
- Role of Data Scientist and Data Analyst in Big Data
- Analytics in Spark
- Machine Learning
- Supervised Learning
- Demo: Classification of Linear SVM
- Demo: Linear Regression With Real World Case Studies
- Unsupervised Learning
- Demo: Unsupervised Clustering K-means
- Reinforcement Learning
- Semi-supervised Learning
- Overview of Mlib
- Mlib Pipelines
- Key Takeaways
- Knowledge Check
- Practice Project: Spark Mlib - Modelling Big data With SparkStreambehandlingsramverk och Spark Streaming
Lektion 12
- Översikt av streaming
- Realtidsbearbetning av stora datamängder
- Arkitekturer för databearbetning
- Demo: Realtidsdatabearbetning med Spark Streaming
- Demo: Skriva Spark Streaming-applikation
- Introduktion till DStreams
- Transformationer på DStreams
- Designmönster för användning av Foreachrdd
- Tillståndsoperationer
- Fönsteroperationer
- Sammanslagningsoperationer Stream-dataset Join
- Demo: Fönsterhantering av realtidsdatabearbetning av streamingkällor
- Demo: Bearbetning av Twitter-strömmande data
- Strukturerad Spark Streaming-
- Användningsfall banktransaktioner
- Arkitekturmodell för strukturerad streaming och dess komponenter
- Utmatningssänkor
- API:er för strukturerad streaming
- Konstruktion av kolumner i strukturerad streaming
- Fönsteroperationer på händelsetid
- Användningsfall
- Demo: Streaming-pipeline
- Praktikprojekt: Spark Streaming
- Viktiga slutsatser
- Kunskapskontroll
- Praktikprojekt: Streambehandlingsramverk och Spark StreamingSpark GraphX
Lektion 13
- Spark GraphX
- Introduction to Graph
- GraphX in Spark
- GraphX Operators
- Join Operators
- GraphX Parallel System
- Algorithms in Spark
- Pregel API
- Use Case of GraphX
- Demo: GraphX Vertex Predicate
- Demo: Page Rank Algorithm
- Key Takeaways
- Knowledge Check
- Practice Project: Spark GraphX Project Assistance

Målgrupp
Idealisk för ett brett spektrum av yrkesverksamma och privatpersoner som vill främja sin karriär inom stordataanalys, dataingenjörskonst och datavetenskap.
Förkunskaper: Det rekommenderas att du har kunskaper i Core Java och SQL
Analytiker inom data
Seniora IT-professionella
Test- och stordatorproffs
Datahanteringsproffs
Affärsintelligensspecialister
Projektledare
Examenstagare som vill börja en karriär inom stordataanalys
Vanliga frågor

Behöver du en företagslösning eller integration av LMS?
Hittade du inte kursen eller programmet som skulle passa för ditt företag? Behöver du LMS-integration? Skriv till oss! Vi löser det!