Integral Solutions - Rozwiązania IT dla firm Integral Solutions - Rozwiązania IT dla firm
Integral Solutions - Rozwiązania IT dla firm Integral Solutions - Rozwiązania IT dla firm

Data Engineering Integration for Developers

Wykorzystanie funkcji Informatica Data Engineering Integration w celu osiągnięcia maksymalnej wydajności procesów przetwarzania danych w środowisku Big Data

Szczegóły szkolenia

  • Czas trwania szkolenia: 3 dni
  • Liczba osób w grupie: 4 – 8
  • Grupa docelowa: Developerzy
  • Szkolenie w języku polskim
  • Software: Wersja 10.5.1.
  • Wymagania wstępne: Brak
  • Cena katalogowa za 1 uczestnika: 550 Euro/dzień, możliwy rabat przy większej liczbie uczestników

Nauczysz się, jak osiągnąć maksymalną wydajność przetwarzania poprzez masowe pobieranie danych, ładowanie przyrostowe, transformacje, przetwarzanie plików o złożonych formatach, tworzenie dynamicznych mappingów i stosowanie rozwiązań data science przy użyciu Pythona.

Poznasz sposoby optymalizacji wydajności środowiska Data Engineering poprzez monitorowanie, rozwiązywanie problemów i stosowanie zalecanych praktyk, a także nauczysz się wielokrotnie wykorzystywać tę samą logikę przetwarzania w konkretnych przypadkach użycia.

 

Cele

Po pomyślnym ukończeniu kursu, uczestnik zdobędzie umiejętności niezbędne do:

  • masowego pobierania danych do Hive i HDFS
  • ładowania przyrostowego w trybie Mass Ingestion
  • projektowania procesów ładowania inicjalnego i przyrostowego
  • integracji z bazami relacyjnymi przy użyciu SQOOP
  • wykonywania przekształceń danych na poziomie różnych silników przetwarzania
  • uruchamiania mappingów przy użyciu JDBC w trybie Spark
  • wykonywania obliczeń z funkcjami okienkowymi
  • przetwarzania plików o złożonych formatach
  • przetwarzania danych hierarchicznych w środowisku Spark
  • uruchamiania mappingów dynamicznych
  • audytowania mappingów
  • śledzenia logów przy użyciu komponentu REST Operations Hub
  • śledzenia logów przy pomocy mechanizmu agregowania logów i rozwiązywania problemów z ich pomocą
  • uruchamiania mappingów w środowisku Databricks
  • tworzenia mappingów do obsługi tabel Delta Lake
  • optymalizacji procesów w środowiskach Spark i Databricks

Agenda szkolenia

MODULE 1

Informatica Data Engineering Integration Overview

  • Data Engineering concepts
  • Data Engineering Integration features
  • Benefits of Data Engineering Integration
  • Data Engineering Integration architecture
  • Data Engineering Integration developertasks
  • Data Engineering Integration 10.5 newfeatures

MODULE 2

Ingestion and Extraction in Hadoop

  • Integrating DEI with Hadoop cluster
  • Hadoop file systems
  • Data Ingestion to HDFS and Hive usingSQOOP
  • Mass Ingestion to HDFS and Hive – Initialload
  • Mass Ingestion to HDFS and Hive -Incremental load
  • Lab: Configure SQOOP for ProcessingData Between Oracle (SQOOP) to HDFS
  • Lab: Configure SQOOP for processing databetween an Oracle database and Hive
  • Lab: Creating Mapping Specifications usingMass Ingestion Service

MODULE 3

Native and Hadoop Engine Strategy

  • DEI engine strategy
  • Hive Engine architecture
  • MapReduce
  • Tez
  • Spark architecture
  • Blaze architecture
  • Lab: Executing a mapping in Spark mode
  • Lab: Connecting to a Deployed Application

MODULE 4

Data Engineering Development Process

  • Advanced Transformations in DEI –Python, Update Strategy, and Macro
  • Hive ACID Use Case
  • Stateful Computing and Windowing
  • Lab: Creating a Reusable PythonTransformation
  • Lab: Creating an Active PythonTransformation
  • Lab: Performing Hive Upserts
  • Lab: Using Windowing Function LEAD
  • Lab: Using Windowing Function LAG
  • Lab: Creating a Macro Transformation

MODULE 5

Complex File Processing

  • Data Engineering file formats – Avro,Parquet, JSON
  • Complex file data types – Structs, Arrays,Maps
  • Complex Configuration, Operators andFunctions
  • Lab: Converting Flat File data object to anAvro file
  • Lab: Using complex data types – Arrays,Structs, and Maps in a mapping

MODULE 6

Hierarchical Data Processing

  • Hierarchical Data Processing
  • Flatten Hierarchical Data
  • Dynamic Flattening with SchemaChanges
  • Hierarchical Data Processingwith Schema Changes
  • Complex Configuration,Operators and Functions
  • Dynamic Ports
  • Dynamic Input Rules
  • Lab: Flattening a complex port ina Mapping
  • Lab: Building dynamic mappingsusing dynamic ports
  • Lab: Building dynamic mappingsusing input rules
  • Lab: Performing DynamicFlattening of complex ports
  • Lab: Parsing Hierarchical Dataon the Spark Engine

MODULE 7

Mapping Optimization andPerformance Tuning

  • Validation Environments
  • Execution Environment
  • Mapping Optimization
  • Mapping Recommendations andInsight
  • Scheduling, Queuing, and NodeLabeling
  • Mapping Audits
  • Lab: ImplementingRecommendation
  • Lab: Implementing Insight
  • Lab: Implementing MappingAudits

MODULE 8

Monitoring Logs andTroubleshooting in Hadoop

  • Hadoop Environment Logs
  • Spark Engine Monitoring
  • Blaze Engine Monitoring
  • REST Operations Hub
  • Log Aggregator
  • Troubleshooting
  • Lab: Monitoring Mappings usingREST Operations Hub
  • Lab: Viewing and analyzing logsusing Log Aggregator

MODULE 9

Intelligent Structure Model

  • Intelligent Structure DiscoveryOverview
  • Intelligent Structure Model
  • Lab: Use an Intelligent StructureModel in a Mapping

MODULE 10

Databricks Overview

  • Databricks overview
  • Steps to configure Databricks
  • Databricks clusters
  • Notebooks, Jobs, and Data
  • Delta Lakes

MODULE 11

Databricks Integration

  • Databricks Integration
  • Components of the Informaticaand the Databricks environments
  • Run-time process on theDatabricks Spark Engine
  • Databricks Integration Task Flow
  • Pre-requisites for Databricksintegration
  • Cluster Workflows

Skontaktuj się z nami

Agnieszka Chmielewska

Uniwersytet Informatica

Skontaktuj się z nami