ClouderaNOW Dowiedz się więcej o agentach AI, przenoszeniu do chmury i strukturach danych dla sztucznej inteligencji | 8 kwietnia

Zarejestruj się
  • Cloudera Cloudera
  • | Techniczne

    Cloudera, Snowflake czy Databricks: który model federacji najlepiej wspiera sztuczną inteligencję dla przedsiębiorstw?

    Navita Sood Headshot
    Strumień danych

    Sztuczna inteligencja zmusza przedsiębiorstwa do konfrontacji z projektem, który odkładano od lat: fragmentarycznymi strukturami danych.  

    Kiedyś fragmentacja była obciążeniem. Zebranie raportów z różnych regionów lub departamentów zajęło kilka dodatkowych kroków — i kilka dodatkowych dni. Być może musiał wkroczyć zespół IT, aby pogodzić rozbieżności. Żaden z tych czynników nie był jednak na tyle uciążliwy, by stanowić przeszkodę.  

    Aż do dziś. 

    Dlaczego integracja danych ma teraz znaczenie 

    W kontekście sztucznej inteligencji rozdrobniony zasób danych oznacza, że:

    • Modele trenuje się na niepełnym kontekście
    • Agenty podejmują decyzje na podstawie nieaktualnych lub nieprawidłowych danych
    • Polityka zarządzania jest stosowana niespójnie w różnych środowiskach

    Oznacza to powielanie, opóźnienia i martwe punkty dokładnie w momencie, gdy przedsiębiorstwa próbują zoperacjonalizować sztuczną inteligencję na dużą skalę. 

    Innymi słowy, fragmentacja nagle staje się czynnikiem decydującym. 

    W naszym poprzednim poście przeanalizowaliśmy, dlaczego ujednolicony, regulowany dostęp do danych jest podstawą zaufania do sztucznej inteligencji i dlaczego sama konsolidacja nie stanowi rozwiązania problemu. Centralizacja danych (tj. przeniesienie ich wszystkich w jedną fizyczną lokalizację) może teoretycznie wydawać się klarowna, ale w praktyce wprowadza kompromisy operacyjne, na które przedsiębiorstwa nie mogą sobie już pozwolić. Kliknij tutaj, aby przeczytać dlaczego

    Alternatywą jest federacja — która umożliwia organizacjom działanie tak, jakby ich dane były ujednolicone. Ale jest pewien niuans, który wielu nabywców właśnie odkrywa: 

    Nie wszystkie strategie federacji są sobie równe. 

    Dwie konkurencyjne strategie federacji: najpierw scentralizować czy federować tam, gdzie znajdują się dane 

    Większość dostawców używa terminu „federacja” do opisania korzyści płynących z ich platformy danych i AI (czyli umożliwienia organizacjom wykorzystania wszystkich danych do prowadzenia analityki i AI), ale nie zawsze mają na myśli to samo. Przy ocenie platformy ważne jest, aby dokładnie zrozumieć, co oferuje każdą dostawca i jak dobrze dopasowuje się do Twoich potrzeb, zanim się nadmiernie zaangażujesz. 

    Zasadniczo na rynku dominują obecnie dwa podejścia: federacja oparta na konsolidacji oraz federacja na miejscu (często nazywana wirtualizacją danych). 

    Model 1: konsolidacja — najpierw federacja (podejście Databricks i Snowflake)

    Pierwszy model federacji to tak zwane podejście „najpierw konsolidacja” — federacja staje się możliwa po skonsolidowaniu danych w środowisku chmury dostawcy lub w jego modelu zarządzania. Jeśli chcesz mieć dostęp międzysystemowy, zazwyczaj oznacza to regularne kopiowanie lub pobieranie danych na ich platformę. 

    Mówiąc prościej, jest to federacja, ponieważ możesz analizować wszystkie swoje dane w jednym miejscu. Ale najpierw musisz przenieść wszystko do ich domu. 

    Dla liderów przedsiębiorstw podejście to niesie ze sobą konkretne konsekwencje, w tym:

    • Wyższe koszty przechowywania i przetwarzania danych
    • Zwiększenie ilości powielonych danych
    • Polityka zarządzania i replikacja uprawnień w różnych systemach
    • Większa zgodność i złożoność audytu

    Innymi słowy, im więcej miejsc, do których trafiają dane, tym droższe i trudniejsze do zabezpieczenia się one stają. W przypadku firm natywnie działających w chmurze takie podejście może być akceptowalne. Ale w przypadku hybrydowych, regulowanych przedsiębiorstw wprowadza tarcie, które z czasem się kumuluje. 

    Model 2: federacja na miejscu (podejście Cloudera) 

    Alternatywny model federacji, wspierany przez Cloudera, przyjmuje zasadniczo inne stanowisko: wprowadź obliczenia i sztuczną inteligencję do danych, bez względu na to, gdzie się znajdują, zamiast zmuszać do przeniesienia danych.  

    Federacja na miejscu łączy dane logicznie, a nie fizycznie, dzięki czemu zespoły mogą uzyskać dostęp i analizować je tam, gdzie już się znajdują — w środowiskach publicznych, prywatnych i lokalnych — bez konieczności kopiowania ich na inną platformę. 

    Brzmi jak subtelna różnica, ale w praktyce to zmienia wszystko: 

    • Niższe koszty infrastruktury i pamięci masowej dzięki minimalizacji niepotrzebnego przepływu danych
    • Mniejsza ilość powielonych danych między środowiskami
    • Większa elastyczność w architekturach wielochmurowych i lokalnych
    • Mniejsze narażenie na ryzyko koncentracji w chmurze
    • Pojedynczy model bezpieczeństwa i zarządzania z kompleksowymi informacjami o pochodzeniu danych w dowolnym miejscu

    W rezultacie dane pozostają tam, gdzie mają największy sens ze względów regulacyjnych, operacyjnych lub wydajnościowych, a zespoły nadal mają pełny wgląd w te dane w czasie rzeczywistym. 

    Co umożliwia federacja w miejscu, czego nie mogą zapewnić modele oparte na konsolidacji 

    Kiedy federacja działa w środowiskach hybrydowych bez replikacji (tj. federacja na miejscu), stwarza warunki, których modele konsolidacji nie są w stanie osiągnąć. To rozróżnienie zmienia profil ryzyka całej strategii AI poza środowiskami wyłącznie w chmurze. 

    1. Bezpieczeństwo bez redundancji 

    W modelach opartych na konsolidacji (oferowanych przez takich dostawców jak Databricks i Snowflake) dane mogą wydawać się ujednolicone, ale nadal istnieją w wielu środowiskach. Są kopiowane, pozyskiwane lub replikowane do platformy kontrolowanej przez dostawcę, zanim będą mogły zostać przeanalizowane. Każda dodatkowa kopia rozszerza obszar zgodności. 

    Więcej środowisk oznacza więcej uprawnień do zarządzania, więcej zasad do synchronizacji i większy zakres audytu do uzgodnienia. Wraz ze wzrostem replikacji rośnie także złożoność zarządzania. 

    Modele federacyjne, takie jak Cloudera, pozostawiają dane tam, gdzie się znajdują. W związku z tym zasady zarządzania są definiowane raz i egzekwowane konsekwentnie wszędzie. Zamiast odtwarzać uprawnienia w różnych systemach, pojedyncza, spójna płaszczyzna kontroli zarządza dostępem w środowiskach hybrydowych. W Cloudera nazywamy to zarządzaniem, które przemieszcza się wraz z danymi. 

    To jak globalny system korporacyjnych identyfikatorów. Nie chcesz wydawać nowej plakietki bezpieczeństwa za każdym razem, gdy pracownik odwiedza inne biuro. Uprawnienia dostępu są definiowane centralnie, a ten sam identyfikator działa w centrali, regionalnych biurach i centrach danych, egzekwując wszędzie te same zasady bezpieczeństwa. 

    Reguły definiuje się raz, a każde drzwi je rozpoznają — nawet w różnych lokalizacjach. To bezpieczeństwo zerowej redundancji i jest to ogromna zaleta w zakresie ograniczania ryzyka, ponieważ złożoność nie mnoży się wraz ze wzrostem środowiska. 

    2. Kompleksowe śledzenie pochodzenia danych w źródłach hybrydowych 

    W różnych branżach sztuczna inteligencja bierze na siebie większą odpowiedzialność, a wraz z tym rośnie potrzeba odpowiedzialności i wytłumaczalności. 

    Kiedy sztuczna inteligencja wpływa na decyzje kredytowe, ostrzeżenia o oszustwach, decyzje cenowe lub dostosowania łańcucha dostaw, na przykład, każdy wynik musi być możliwy do obrony. Organy regulacyjne, audytorzy i kadra kierownicza coraz częściej oczekują, że zobaczą nie tylko wynik, ale całą ścieżkę, która do niego doprowadziła. 

    W przedsiębiorstwach hybrydowych ta ścieżka rzadko znajduje się w jednym środowisku. Dane mogą pochodzić z lokalnych zasobów lub z systemów brzegowych, być wzbogacane w chmurze publicznej, łączone z danymi SaaS i wykorzystywane przez model działający gdzie indziej. Identyfikowalność w tej rzeczywistości jest absolutnie konieczna. 

    Podejścia oparte na konsolidacji w pierwszej kolejności w federacji próbują uprościć pochodzenie danych poprzez ich centralizację. W praktyce jednak replikacja tworzy równoległe historie: oryginalne zbiory danych w systemach źródłowych i przekształcone kopie w środowiskach analitycznych. Z biegiem czasu wyjaśnienie decyzji może wymagać uzgodnienia wielu wersji tych samych danych w różnych systemach. Pochodzenie danych staje się czymś, co należałoby zrekonstruować. 

    Dzięki zintegrowaniu federacji na miejscu z możliwościami śledzenia danych (takimi jak narzędzia do śledzenia danych Cloudera), nie stanowi to problemu. Ponieważ dane są dostępne w miejscu ich przechowywania (zamiast być replikowane w oddzielnym środowisku), pochodzenie pozostaje zakotwiczone w oryginalnym źródle. 

    To rozróżnienie ma największe znaczenie w hybrydowych i zależnych od punktów interakcji przepływach pracy. Dzięki podejściu federacyjnemu można mieć pewność, że jeśli za jakiś czas pojawi się organ regulacyjny lub nowy dyrektor ds. zarządzania ryzykiem z pytaniem, jak podjęto daną decyzję, nie będzie trzeba odkopywać odpowiedzi z czarnej skrzynki wymagającej rozszyfrowania. Jest udokumentowana, możliwa do śledzenia i możliwa do obrony. 

    3. Silniejsze podstawy dla rzeczywistych systemów AI 

    W modelach opartych na konsolidacji w pierwszej kolejności sztuczna inteligencja działa w środowisku, w którym dane zostały scentralizowane. Spełnia to swoją funkcję, o ile ruch danych nadąża za rzeczywistością operacyjną. W przedsiębiorstwach hybrydowych rzadko tak się dzieje. 

    Kiedy sztuczna inteligencja jest odpowiedzialna za rzeczywiste wyniki, takie jak dynamiczne ustalanie cen lub dostosowania łańcucha dostaw, musi działać w rzeczywistych, rozproszonych systemach, a nie w dalszych kopiach analitycznych. Każdy etap replikacji wprowadza łańcuchy zależności, tworząc opóźnienia w pozyskiwaniu danych oraz potencjalny dryf między rzeczywistymi systemami operacyjnymi a modelami sztucznej inteligencji, które je wykorzystują. 

    Z drugiej strony federacja na miejscu utrzymuje sztuczną inteligencję w zgodzie z rzeczywistością operacyjną, zapewniając aktualność kontekstu i wspierając operacyjne przypadki użycia sztucznej inteligencji, z którymi strategia federacji oparta na konsolidacji nie mogłaby nadążyć poza chmurą. 

    Operacyjna sztuczna inteligencja w praktyce: branża logistyczna

    Aby zobrazować, dlaczego to wszystko jest istotne w praktyce, przeanalizujmy przykład. Rozważmy globalną firmę logistyczną wykorzystującą sztuczną inteligencję do optymalizacji tras dostaw w czasie rzeczywistym. Pojedyncza decyzja dotycząca tras może zależeć od: 

    • Danych dotyczących dostępności kierowców z systemu zarządzania siłą roboczą
    • Transmisji GPS w czasie rzeczywistym z pojazdów
    • Danych o ruchu drogowym i pogodzie z zewnętrznych interfejsów API
    • Dostępności zapasów w magazynach regionalnych
    • Wskaźników efektywności paliwowej z czujników IoT
    • Lokalnych ograniczeń regulacyjnych lub przepisów związkowych

    Jeśli ten model sztucznej inteligencji działa na podstawie migawek skopiowanych do pojedynczej chmury kilka dni lub nawet godzin wcześniej, podejmuje decyzje w niepełnym kontekście. Może zmieniać trasę kierowców bez uwzględnienia zaktualizowanych poziomów zapasów lub optymalizować prędkość bez uwzględnienia regionalnych ograniczeń dotyczących ruchu drogowego. Może polegać na przestarzałej telemetrii z pojazdów, które już zjechały z trasy. 

    Gdy systemy sztucznej inteligencji mogą bezpiecznie uzyskać dostęp do rozproszonych danych tam, gdzie już żyją, z zabezpieczeniami zerowej redundancji i pełną widocznością pochodzenia danych, organizacje odblokowują w pełni operacyjną sztuczną inteligencję, która działa w czasie rzeczywistym i w granicach zasad oraz skaluje się w różnych środowiskach bez zwiększania ryzyka. 

    Jak wybrać dostawcę federacji: pytania, które powinno zadać sobie każde przedsiębiorstwo 

    Jak już omówiliśmy, nie wszystkie strategie federacji są projektowane z myślą o tym samym rezultacie.  

    Niektórzy priorytetowo traktują konsolidację, a inni elastyczność hybrydową i zarządzany dostęp. Podczas oceny rozwiązań Cloudera, Databricks i Snowflake (lub dowolnego rozwiązania federacji danych lub ich kombinacji) pytania te pomagają ujawnić rzeczywiste różnice: 

    • Czy federacja wymaga przenoszenia danych? Czy możesz uzyskać dostęp do danych tam, gdzie już istnieją, czy też najpierw trzeba je skopiować do scentralizowanej chmury?
    • Gdzie definiowane są polityki zarządzania? Czy kontrole dostępu są ustawiane raz i dziedziczone wszędzie, czy też odtwarzane w różnych systemach?
    • Czy rozwiązania hybrydowe są traktowane jako trwałe? Czy architektura obsługuje lokalne i wielochmurowe rozwiązania na dłuższą metę, czy zakłada ostateczną konsolidację?
    • Czy pochodzenie może wykraczać poza środowisko dostawcy? Czy śledzenie jest kompleksowe w rozproszonych źródłach, w tym w systemach innych niż natywne?
    • Czy platforma jest przeznaczona do operacyjnej sztucznej inteligencji w dowolnym miejscu? Czy sztuczna inteligencja może bezpiecznie uzyskać dostęp do danych na żywo w czasie rzeczywistym lub tylko do scentralizowanych migawek?

    Odpowiedzi na te pytania pomogą Ci zdecydować, czy federacja stanie się funkcją wygody opartą na przypadkach użycia analityki, czy też długoterminową podstawą zaufanej, kontrolowanej kosztowo sztucznej inteligencji na skalę przedsiębiorstwa. 

    Federacja działa tylko wtedy, gdy jest celowo zaprojektowana 

    Projektowanie środowiska federacyjnego oznacza sięgnięcie głębiej — dopasowywanie modeli zarządzania, ograniczeń regulacyjnych, wymagań wydajnościowych i istniejących integracji przy jednoczesnym łączeniu systemów w sposób wspierający długoterminową elastyczność. 

    Zespół ds. profesjonalnych usług i szkoleń (PS&T) firmy Cloudera wielokrotnie przeprowadzał organizacje z różnych branż przez ten proces. Bez względu na to, czy stworzysz nową strategię federacyjną, czy optymalizujesz istniejące środowisko — posiadanie doświadczonych doradców po swojej stronie może pomóc zapewnić, że środowisko federacyjne będzie nie tylko poprawnie skonfigurowane, ale także rzeczywiście gotowe do sztucznej inteligencji i zbudowane tak, aby zapewniać wymierne wyniki. 

     

    Czytaj dalej: jak działa federacja w usługach finansowych 

    Wybór między konsolidacją a federacją na miejscu decyduje, czy AI pozostanie w trybie pilotażowym, czy też bezpiecznie przejdzie do operacji. 

    Nigdzie nie jest to bardziej istotne niż w przypadku usług finansowych, gdzie wykrywanie oszustw, zarządzanie ryzykiem i sprawozdawczość regulacyjna zależą od aktualnych, międzysystemowych danych. W naszym kolejnym artykule przeanalizujemy, w jaki sposób federacja przekształca analizę w czasie rzeczywistym i zarządzanie sztuczną inteligencją w sektorze bankowym. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.