Indeks gotowości danych 2026: Zrozumienie podstaw skutecznego wdrażania sztucznej inteligencji

Zobacz wyniki
  • Cloudera Cloudera
  • | Techniczne

    Jak wiodące zespoły ds. danych budują potoki gotowe na sztuczną inteligencję za pomocą Apache Iceberg i Spark

    Pamela Pan headshot
    Ying Chen
    Akshat Mathur headshot
    Kobieta patrząca na telefon w kuchni

    Lekcje od dwóch globalnych przedsiębiorstw modernizujących inżynierię danych pod kątem skalowalnej sztucznej inteligencji

    Od analityki predykcyjnej po generatywną sztuczną inteligencję, każda firma stara się przekształcać dane w wartość. Jednak dla wielu zespołów prawdziwe wyzwanie leży pod powierzchnią — w pracy inżynierii danych wymaganej, aby sprawić, że te dane będą użyteczne, zaufane i skalowalne. W złożonych środowiskach inżynierowie nadal łączą potoki, stosując starsze formaty tabel, duplikują logikę między narzędziami i dostosowują zarządzanie po fakcie. Te nieefektywności powodują spowolnienia na każdym etapie, opóźniając wyniki i ograniczając wpływ nawet najbardziej zaawansowanych inicjatyw sztucznej inteligencji i analityki.

    Dla przedsiębiorstw, którym zależy na usprawnieniu i zabezpieczeniu przyszłości swojego stosu inżynierii danych, skutecznym rozwiązaniem okazał się Apache Iceberg jako otwarty format tabel i Apache Spark jako otwarty silnik obliczeniowy. Razem oferują otwarty, skalowalny i ustandaryzowany fundament do przetwarzania danych w skali petabajtów (PB) i zarządzania nimi — bez konieczności kompromisów w zakresie zarządzania, elastyczności i wydajności.

    W tym wpisie na blogu przyjrzymy się bliżej, jak dwie globalne organizacje przekształciły swoje potoki danych, wykorzystując Spark i Iceberg w połączeniu z platformą danych i sztucznej inteligencji Cloudera. Zbadamy, jak skróciły one czas wykonywania zapytań o 80%, ustandaryzowały przepływy pracy między zespołami i przyspieszyły ich ścieżkę od surowych danych do analiz gotowych na sztuczną inteligencję.

    Jak firma Vodafone Idea zredukowała czasy wykonywania zapytań o 80%

    Vodafone Idea to jedna z trzech głównych firm telekomunikacyjnych w Indiach, obsługująca 220 milionów klientów. Firma zmagała się z problemami skali: jej jezioro danych oparte na technologii Hive rozrosło się do ponad 17 PB, a wąskie gardła wydajnościowe zagrażały kluczowym operacjom biznesowym. Ukończenie niektórych zapytań raportujących trwało ponad 70 godzin! To opóźniało zapewnianie zgodności, analizę i sprawozdawczość regulacyjną.

    Zamiast po prostu zmodernizować infrastrukturę, firma Vodafone Idea zdecydowała się przeprojektować swoją platformę danych. Firma we współpracy z Cloudera wykorzystała platformę Iceberg do szybszego wykonywania zapytań dzięki zoptymalizowanym metadanym i ewolucji schematów, a także przebudowała swoje przepływy pracy przetwarzania na platformie Spark, aby wykorzystać rozproszone obliczenia do wydajnego przetwarzania danych na dużą skalę. 

    Na potrzeby sprawozdawczości regulacyjnej połączono Iceberg z Apache Impala jako interaktywnym silnikiem zapytań, aby zapewnić szybki, niezawodny dostęp do zbiorów danych na skalę PB. Podczas gdy Impala obsługiwała zapytania dotyczące raportowania, Iceberg odgrywał kluczową rolę w tle — jego obsługa transakcji ACID (atomowość, spójność, izolacja i trwałość — właściwości, które zapewniają niezawodne i spójne przetwarzanie transakcji w bazie danych), elastyczne możliwości ewolucji schematów oraz bogate metadane zapewniały spójność przepływów pracy związanych z raportowaniem, nawet w razie zmian danych.

    Dzięki integracji z Cloudera Shared Data Experience (SDX) zespół uzyskał także szczegółowe zarządzanie z kontrolą dostępu na podstawie ról i atrybutów, co pozwoliło zapewnić, że właściwe osoby mają dostęp do odpowiednich danych. Ta podstawa umożliwiła firmie dostarczanie terminowych i nadających się do audytu raportów, jednocześnie spełniając rosnące wymagania regulacyjne. 

    Transformacja telekomunikacji dzięki efektywności opartej na danych

    Dzięki partnerstwu z Cloudera firma Vodafone Idea zachowała elastyczność, wzmocniła zarządzanie i przyspieszyła dostarczanie analiz na dużą skalę — bez konieczności przebudowy całego stosu danych. Używając platformy Spark do pozyskiwania, formatu Iceberg do ujednoliconego zarządzania tabelami i silnika Impala do raportowania, zmodernizowała swoje fundamenty, jednocześnie ponownie wykorzystując istniejącą logikę i przepływy pracy. 

    Ta architektura wspólnie przyniosła wymierne rezultaty:

    • Skrócenie czasu wykonywania zapytań o 80%.
    • Zmniejszenie liczby awarii potoków dzięki odporności Spark na dużą skalę i niezawodnym możliwościom zarządzania tabelami Iceberg.
    • Ulepszenie sprawozdawczości regulacyjnej (szybsza i bardziej wiarygodna).


    Jak firma farmaceutyczna przeprowadziła konsolidację w celu skalowania: jeden stos technologii, 10 000 zadań

    Globalna firma farmaceutyczna zarządzająca danymi z badań klinicznych na skalę PB stanęła przed znanym, ale rosnącym wyzwaniem: stosowała zbyt wiele narzędzi, co prowadziło do wyzwań związanych z niezawodnością danych i trudnościami w spełnianiu standardów zgodności, a ponadto była pod presją obsługiwania szybszej sztucznej inteligencji i analiz. Zespoły inżynierii danych musiały wykonywać ponad 10 000 codziennych zadań ETL, ale brakowało im standaryzowanego sposobu budowania lub walidowania potoków oraz zarządzania nimi między zespołami.

    Dzięki rozwiązaniu Cloudera na platformie AWS firma wyznaczyła jasny kierunek rozwoju. Zespół ustandaryzował wszystkie potoki danych przy użyciu platformy Spark w rozwiązaniu Cloudera Data Engineering, ujednolicając i skalując przetwarzanie w ramach obciążeń wsadowych, przesyłania strumieniowego i uczenia maszynowego. Jednocześnie przyjęto Iceberg jako domyślny format otwartej tabeli w celu zapewnienia spójnej ewolucji schematu, wbudowanej kontroli wersji i zarządzania klasy korporacyjnej w zespołach oraz środowiskach.

    Wdrażając Spark i Iceberg na platformie Cloudera, firma ustanowiła przejrzysty i skalowalny fundament DataOps, który ustandaryzował przetwarzanie potoków danych, umożliwił bezpieczne udostępnianie danych między zespołami i narzędziami, a także utorował drogę do szybszej i bardziej zaawansowanej sztucznej inteligencji oraz analiz. Ten fundament obsługuje teraz wszystko, od przepływów pracy audytu dotyczącego zachowania zgodności z przepisami po modele sztucznej inteligencji, które przyspieszają odkrycia w badaniach klinicznych i opracowywanie leków, zapewniając firmie możliwość płynnej integracji dowolnych nowych technologii lub silników w przyszłości.

    Transformacja farmacji dzięki ujednoliconej platformie danych

    Standaryzacja na platformie Cloudera dała globalnej firmie farmaceutycznej nowy poziom spójności operacyjnej:

    • Zarządzanie bez zakłóceń: wzorzec zapisu, audytu i publikowania Iceberg umożliwia zespołom wyższego szczebla walidowanie danych przed udostępnieniem ich do produkcji — bez przerywania przepływów pracy niższego szczebla.
    • Podróże w czasie na potrzeby identyfikowalności: zespoły regulacyjne mogą natychmiast uzyskiwać dostęp do historycznych migawek danych, co umożliwia przejrzyste wycofywanie i obsługę audytu.
    • Wspólna logika potoków: dzięki zastosowaniu Spark jako ujednoliconego silnika zespoły — od inżynierów danych po analityków danych — mogą łatwo współpracować i ponownie używać podstawowych transformacji w różnych zadaniach i środowiskach, co zmniejsza duplikowanie i upraszcza konserwację.


    Budowanie nowoczesnych fundamentów dla inżynierii danych i sztucznej inteligencji

    Te dwie historie mają wspólny wątek: obie organizacje zmierzyły się z fragmentacją, presją skali i rosnącą złożonością w swoich przepływach pracy z danymi. Dzięki standaryzacji na platformie Apache Spark i Apache Iceberg z Cloudera przebudowano potoki na podstawie otwartych, skalowalnych i zaufanych komponentów, co umożliwiło lepsze zarządzanie, szybsze działanie i bardziej przejrzyste przepływy danych na potrzeby sztucznej inteligencji i analiz.

    Dzięki Cloudera Data Engineering przedsiębiorstwa otrzymują kompleksowe rozwiązanie, które działa w środowiskach hybrydowych i wielochmurowych. Łączy ono Spark, Iceberg i zintegrowaną orkiestrację z Airflow, aby umożliwić zespołom:

    • Tworzenie potoków raz i uruchamianie ich w dowolnym miejscu — w centrum danych lub w chmurach
    • Utrzymywanie zaufania i zarządzania na dużą skalę w otwartej architekturze data lakehouse

    Obejrzyj ten interaktywny pokaz, aby zobaczyć, jak Spark i Iceberg obsługują zaufane, skalowalne potoki na platformie Cloudera. Wypróbuj samodzielnie dzięki 5-dniowej wersji próbnej Cloudera Data Engineering i już dziś zacznij tworzyć przepływy pracy danych gotowe na sztuczną inteligencję.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.