22.02.2023
Proces ELT w uproszczeniu składa się z 3 kroków:
- Extract – wyodrębnienie danych ze źródeł i zasilenie przestani tymczasowej.
- Load – załadowanie danymi do miejsca docelowego.
- Transform – krok, w którym następuje przekształcenie danych włącznie z ich uzgadnianiem, czyszczeniem, poprawianiem.

Tradycyjnie duże organizacje, które miały znaczące transakcje, wykorzystywały ETL (wyodrębnianie, przekształcanie, ładowanie) do przetwarzania danych w swoich systemach w celu analizy i raportowania. Załadowanie danych do hurtowni danych w chmurze i data lake zapewnia skalowalność, łatwość dostępu, niskie koszty przechowywania i wydajność operacyjną. Dzięki możliwościom przechowywania danych w chmurze i ich przetwarzania, to podejście powoli ustępuje miejsca przetwarzaniu danych po ich pobraniu i replikacji do chmury. Dostawcy usług w chmurze pobierają nawet oddzielne opłaty za przechowywanie i przetwarzanie danych, dając klientom większą elastyczność. Dlatego wielu użytkowników zmierza w kierunku ekosystemu ELT.
Dlaczego ELT?
Chociaż istnieje wiele korzyści z wdrożenia ELT, uważamy, że poniższe trzy zapewniają organizacjom największą wartość:
- Wydobywanie wszelkich danych z dowolnego źródła na dużą skalę i z dużą szybkością
Większe przedsiębiorstwa zazwyczaj mają wiele różnych źródeł danych, takich jak aplikacje, bazy danych, pliki, strumieniowanie itp. Korzystanie z ELT oznacza, że można pobierać i replikować dane z różnych zestawów danych, niezależnie od źródła, czy są ustrukturyzowane, czy nieustrukturyzowane, powiązane lub niezwiązane. - Szybsze przekształcenie danych, wykorzystując przetwarzanie w chmurze
ELT nie musi czekać na transformację danych, a następnie ich załadowanie. Proces transformacji odbywa się tam, gdzie znajdują się dane, dzięki czemu można uzyskać do nich dostęp w ciągu kilku sekund. Jest to ogromna korzyść, szczególnie kiedy występuje konieczność przetwarzania danych w krótkim czasie. - Oszczędność czasu i pieniędzy
ELT skraca czas przesyłania danych. Nie wymaga również tymczasowego systemu danych, ani dodatkowych zasobów zdalnych do przekształcania danych poza chmurą. Nie ma potrzeby przenoszenia danych do i z ekosystemów chmurowych w celu ich analizy, co oznacza zerowy koszt wyjścia danych. Obniża również TCO (Total Cost of Ownership) dzięki lepszej wydajności.
Jak platforma zarządzana danymi firmy Informatica pomaga zoptymalizować ELT?
Inteligentna chmura do zarządzania danymi (IDMC) Informatica to kompleksowa platforma zarządzania danymi oparta na sztucznej inteligencji, która oferuje kluczowe funkcjonalności wymagane do optymalizacji procesów ELT. W szczególności funkcje masowego przyjmowania i przekazywania pomagają wydajnie wykonywać kolejne kroki procesu: wyodrębniania, ładowania i przekształcania danych. Przyjrzyjmy się tym możliwościom i ich wartości dla biznesu.
Krok 1 i 2: Wypakuj i załaduj
Podczas etapu wyodrębniania ELT dane są najpierw wyodrębniane z jednego lub większej liczby źródeł. Mogą to być dane IoT, dane platform mediów społecznościowych, z chmury lub systemów lokalnych. Następnie, w kroku ładowania, dane te są transportowane do jeziora danych lub hurtowni danych. Etapy wyodrębniania i ładowania mogą być skutecznie wykonywane przez usługę Cloud Mass Ingestion (CMI).
CMI może pobierać i replikować nieustrukturyzowane, częściowo i całościowo ustrukturyzowane dane, na dużą skalę z różnych baz danych, aplikacji, plików i źródeł danych, przesyłanych strumieniowo, z bardzo małymi opóźnieniami, do celów w chmurze i systemów przesyłania wiadomości. Zapewnia bezkodowe, oparte na kreatorach podejście do pozyskiwania i replikowania danych oraz ich synchronizację. CMI ponadto umożliwia, zarówno użytkownikom technicznym, jak i nietechnicznym, tworzenie potoków danych w ciągu kilku minut. Wyposażony w ujednolicony interfejs użytkownika, CMI zapewnia gotową łączność z setkami źródeł i celów.
Wysoce skalowalna usługa może być używana do pozyskiwania terabajtów niemal dowolnych danych, o prawie dowolnym wzorcu i opóźnieniu. Może to robić zarówno w czasie rzeczywistym, jak i wsadowo. Ponieważ ta usługa masowego pozyskiwania danych jest częścią szerszej platformy IDMC, obejmuje natywne zarządzanie użytkownikami, możliwości monitorowania i mechanizmy ostrzegania.
Krok 3: Przekształć
Podczas etapu przekształcania ELT dane są konwertowane z formatu źródłowego do formatu wymaganego do dalszej analizy biznesowej umożliwiającej podejmowanie kolejnych działań. Zaawansowana optymalizacja pushdown (APDO) , która jest funkcją usługi Cloud Data Integration Informatica, może pomóc w tej transformacji. Optymalizacja pushdown to technika dostrajania wydajności. Logika transformacji jest konwertowana na język SQL i przekazywana do źródłowej lub docelowej bazy danych albo do obu.
APDO umożliwia dwa rodzaje optymalizacji pushdown:
- Funkcja przekazywania hurtowni danych wykorzystuje zapytania SQL do przenoszenia danych z obszaru przemieszczania do magazynu danych operacyjnych (ODS) i z ODS do hurtowni danych przedsiębiorstwa (EDW) w ramach hurtowni danych.
- Funkcja przekazywania ekosystemu przesyła dane z data lake w chmurze do hurtowni danych za pomocą natywnych poleceń ekosystemu.


Korzyści z używania APDO to:
- zero kosztów wychodzących danych, ponieważ dane nie są przenoszone z bazowej infrastruktury chmury,
- szybszy niż tradycyjny ETL,
- niezależny od ekosystemu, co sprawia, że zmiana dostawcy hurtowni danych jest prosta,
- łatwe przełączanie między opcjami środowiska wykonawczego,
- rozbudowana obsługa konektorów dla wszystkich głównych ekosystemów chmurowych,
- nie jest wymagane żadne doświadczenie w kodowaniu.
Jak połączenie CMI i APDO może zoptymalizować procesy ELT?
1. Gdy przechowujesz dane bezpośrednio w hurtowni danych w chmurze
Wiele organizacji przechowuje dane pochodzące z wielu różnych źródeł lokalnych i chmurowych, w chmurowej hurtowni danych. Zanim jednak te dane zostaną wykorzystane do analiz biznesowych są one przekształcane w hurtowni danych.
W tym scenariuszu CMI Informatica może być używane do pozyskiwania lub replikowania danych z różnych źródeł strumieniowych, aplikacji lub źródeł relacyjnych baz danych, do obszaru pomostowego chmurowej hurtowni danych, takiego jak Snowflake, Google Big Query, Amazon Redshift, Azure Synapse lub Databricks. Następnie można zastosować APDO do przekształcenia tych danych ze stagingu do hurtowni danych poprzez pushdown hurtowni danych.
Dzięki takiemu podejściu dane mogą być dostarczane do hurtowni danych z wielu punktów końcowych z dużą szybkością. Dzięki wykorzystaniu istniejącej mocy obliczeniowej maksymalizuje to wartość dotychczasowych inwestycji w hurtownię danych w chmurze. Eliminuje to również wszelkie dodatkowe koszty przesyłania danych. Ilustracja przechowywania danych bezpośrednio w hurtowni danych w chmurze
2. Gdy przechowujesz dane w cloud data lake zanim przeniesziesz je do hurtowni danych w chmurze
Wiele organizacji decyduje się najpierw na przechowywanie danych z wielu różnych źródeł lokalnych i chmurowych, w data lake w chmurze ponieważ, w przeciwieństwie do hurtowni danych, zapewnia im to tańszą pamięć masową na dużą skalę i elastyczność przechowywania nieustrukturyzowanych i częściowo ustrukturyzowanych (hierarchicznych) danych. Dane te są następnie przekształcane przed zapisaniem ich w hurtowni danych.
W tym scenariuszu CMI Informatica może być używane do pozyskiwania lub replikowania danych z różnych źródeł strumieniowych, aplikacji lub relacyjnych baz danych do data lake w chmurze, takiego jak Amazon S3, Azure Data Lake Storage lub Google Cloud Storage. Przed replikacją danych do hurtowni danych za pomocą ekosystemu pushdown można zastosować APDO do przekształcenia tych danych w ekosystemie chmurowym.

Ilustracja przedstawiająca przechowywanie danych w data lake w chmurze przed przeniesieniem ich do hurtowni danych w chmurze
Dzięki temu podejściu dane są dostarczane do data lake z wielu punktów końcowych z dużą prędkością. W tym przypadku transfer danych jest darmowy. Istnieje również lepsza wydajność, co skutkuje mniejszą liczbą godzin obliczeniowych. Oznacza to znaczną oszczędność kosztów.
Optymalizacja ELT za pomocą CMI i APDO
CMI może dostarczać dane z dużą szybkością z wielu różnych źródeł danych przy minimalnym przekształceniu. Z drugiej strony APDO może przetwarzać dane szybciej przy zerowych opłatach za ruch wychodzący. Połączenie tych dwóch usług IDMC zoptymalizuje proces ELT, oszczędzając czas i zmniejszając TCO. Dowiedz się więcej o CMI i APDO już teraz.
Więcej przeczytasz tutaj.