Szczegóły szkolenia
- Czas trwania szkolenia: 3 dni
- Liczba osób w grupie: 4 – 8
- Grupa docelowa: Developerzy
- Szkolenie w języku polskim
- Software: Wersja 10.5.1.
- Wymagania wstępne: Brak
- Cena katalogowa za 1 uczestnika: 550 Euro/dzień, możliwy rabat przy większej liczbie uczestników
Nauczysz się, jak osiągnąć maksymalną wydajność przetwarzania poprzez masowe pobieranie danych, ładowanie przyrostowe, transformacje, przetwarzanie plików o złożonych formatach, tworzenie dynamicznych mappingów i stosowanie rozwiązań data science przy użyciu Pythona.
Poznasz sposoby optymalizacji wydajności środowiska Data Engineering poprzez monitorowanie, rozwiązywanie problemów i stosowanie zalecanych praktyk, a także nauczysz się wielokrotnie wykorzystywać tę samą logikę przetwarzania w konkretnych przypadkach użycia.
Cele
Po pomyślnym ukończeniu kursu, uczestnik zdobędzie umiejętności niezbędne do:
- masowego pobierania danych do Hive i HDFS
- ładowania przyrostowego w trybie Mass Ingestion
- projektowania procesów ładowania inicjalnego i przyrostowego
- integracji z bazami relacyjnymi przy użyciu SQOOP
- wykonywania przekształceń danych na poziomie różnych silników przetwarzania
- uruchamiania mappingów przy użyciu JDBC w trybie Spark
- wykonywania obliczeń z funkcjami okienkowymi
- przetwarzania plików o złożonych formatach
- przetwarzania danych hierarchicznych w środowisku Spark
- uruchamiania mappingów dynamicznych
- audytowania mappingów
- śledzenia logów przy użyciu komponentu REST Operations Hub
- śledzenia logów przy pomocy mechanizmu agregowania logów i rozwiązywania problemów z ich pomocą
- uruchamiania mappingów w środowisku Databricks
- tworzenia mappingów do obsługi tabel Delta Lake
- optymalizacji procesów w środowiskach Spark i Databricks
Agenda szkolenia
MODULE 1
Informatica Data Engineering Integration Overview
- Data Engineering concepts
- Data Engineering Integration features
- Benefits of Data Engineering Integration
- Data Engineering Integration architecture
- Data Engineering Integration developertasks
- Data Engineering Integration 10.5 newfeatures
MODULE 2
Ingestion and Extraction in Hadoop
- Integrating DEI with Hadoop cluster
- Hadoop file systems
- Data Ingestion to HDFS and Hive usingSQOOP
- Mass Ingestion to HDFS and Hive – Initialload
- Mass Ingestion to HDFS and Hive -Incremental load
- Lab: Configure SQOOP for ProcessingData Between Oracle (SQOOP) to HDFS
- Lab: Configure SQOOP for processing databetween an Oracle database and Hive
- Lab: Creating Mapping Specifications usingMass Ingestion Service
MODULE 3
Native and Hadoop Engine Strategy
- DEI engine strategy
- Hive Engine architecture
- MapReduce
- Tez
- Spark architecture
- Blaze architecture
- Lab: Executing a mapping in Spark mode
- Lab: Connecting to a Deployed Application
MODULE 4
Data Engineering Development Process
- Advanced Transformations in DEI –Python, Update Strategy, and Macro
- Hive ACID Use Case
- Stateful Computing and Windowing
- Lab: Creating a Reusable PythonTransformation
- Lab: Creating an Active PythonTransformation
- Lab: Performing Hive Upserts
- Lab: Using Windowing Function LEAD
- Lab: Using Windowing Function LAG
- Lab: Creating a Macro Transformation
MODULE 5
Complex File Processing
- Data Engineering file formats – Avro,Parquet, JSON
- Complex file data types – Structs, Arrays,Maps
- Complex Configuration, Operators andFunctions
- Lab: Converting Flat File data object to anAvro file
- Lab: Using complex data types – Arrays,Structs, and Maps in a mapping
MODULE 6
Hierarchical Data Processing
- Hierarchical Data Processing
- Flatten Hierarchical Data
- Dynamic Flattening with SchemaChanges
- Hierarchical Data Processingwith Schema Changes
- Complex Configuration,Operators and Functions
- Dynamic Ports
- Dynamic Input Rules
- Lab: Flattening a complex port ina Mapping
- Lab: Building dynamic mappingsusing dynamic ports
- Lab: Building dynamic mappingsusing input rules
- Lab: Performing DynamicFlattening of complex ports
- Lab: Parsing Hierarchical Dataon the Spark Engine
MODULE 7
Mapping Optimization andPerformance Tuning
- Validation Environments
- Execution Environment
- Mapping Optimization
- Mapping Recommendations andInsight
- Scheduling, Queuing, and NodeLabeling
- Mapping Audits
- Lab: ImplementingRecommendation
- Lab: Implementing Insight
- Lab: Implementing MappingAudits
MODULE 8
Monitoring Logs andTroubleshooting in Hadoop
- Hadoop Environment Logs
- Spark Engine Monitoring
- Blaze Engine Monitoring
- REST Operations Hub
- Log Aggregator
- Troubleshooting
- Lab: Monitoring Mappings usingREST Operations Hub
- Lab: Viewing and analyzing logsusing Log Aggregator
MODULE 9
Intelligent Structure Model
- Intelligent Structure DiscoveryOverview
- Intelligent Structure Model
- Lab: Use an Intelligent StructureModel in a Mapping
MODULE 10
Databricks Overview
- Databricks overview
- Steps to configure Databricks
- Databricks clusters
- Notebooks, Jobs, and Data
- Delta Lakes
MODULE 11
Databricks Integration
- Databricks Integration
- Components of the Informaticaand the Databricks environments
- Run-time process on theDatabricks Spark Engine
- Databricks Integration Task Flow
- Pre-requisites for Databricksintegration
- Cluster Workflows