ClouderaNOW Dowiedz się więcej o agentach AI, przenoszeniu do chmury i strukturach danych dla sztucznej inteligencji | 8 kwietnia

Zarejestruj się
  • Cloudera Cloudera
  • | Business

    Kontekst to najtrudniejsza część: praktyczne lekcje tworzenia systemów agentowej sztucznej inteligencji

    Pamela Pan headshot
    Navita Sood Headshot
    okna budynku

    Dlaczego inżynieria kontekstu jest ważna i jak zapewniają ją zespoły

    „Jak uzyskać odpowiednie dane, we właściwym miejscu i we właściwym czasie?” 

    To główne wyzwanie stojące za wcielaniem w życie agentowej sztucznej inteligencji w przedsiębiorstwie. Podczas gdy duże modele językowe (LLM) odblokowały potężne możliwości wnioskowania i orkiestracji, ich skuteczność zależy od czegoś bardziej fundamentalnego: dostarczania odpowiedniego kontekstu biznesowego do wnioskowania i podejmowania działań. Inżynieria kontekstu to dyscyplina skupiająca się na kształtowaniu sposobu, w jaki dane, metadane, zasady dostępu i pamięć łączą się, aby kierować zachowaniem agenta w bezpieczny i możliwy do wyjaśnienia sposób.

    W firmie Cloudera widzimy to na własne oczy, współpracując z klientami korporacyjnymi, którzy eksperymentują z nowymi przypadkami użycia generatywnej sztucznej inteligencji (GenAI) i agentowej sztucznej inteligencji. Budowanie systemów agentowej sztucznej inteligencji zależy od czegoś, z czym zmaga się większość organizacji: architektury danych, która przechwytuje wiedzę, zarządza nią i ponownie jej używa w całym cyklu życia sztucznej inteligencji. 

    W tym wpisie na blogu przedstawiamy nasze podejście do budowania systemów agentowej sztucznej inteligencji, które grupują podstawowe możliwości w trzy kategorie: łączenie, nadawanie kontekstu i konsumowanie. Takie podejście umożliwia naszym klientom korporacyjnym tworzenie inteligentnych, zaufanych, wytłumaczalnych i gotowych do wdrożenia w środowisku produkcyjnym agentowych systemów.

    Łączenie: przełamywanie silosów z utrzymaniem kontroli

    Nowoczesne agenty AI nie mogą rozwijać się w środowiskach pofragmentowanych. Większość przedsiębiorstw posiada jednak dane, które są rozproszone w wielu chmurach, centrach danych, starszych systemach i niespójnych formatach. Udostępnienie tych danych systemowi sztucznej inteligencji bez struktury lub zabezpieczeń prowadzi do problemów z wydajnością i stwarza ryzyko dla zarządzania.

    W udanych wdrożeniach zaobserwowaliśmy, że organizacje koncentrują się przede wszystkim na tworzeniu ujednoliconej warstwy danych, która obejmuje różne środowiska i formaty. Nie oznacza to centralizacji wszystkich danych, ale zamiast tego połączenie ich w architekturze struktury danych. Zapewnia to ujednoliconą warstwę ze współdzielonymi metadanymi, zasadami dostępu, federacyjną inżynierią danych i interoperacyjnością w czasie wykonywania. 

    Zaimplementowanie otwartego formatu tabeli i standardowego dostępu do interfejsu API upraszcza dostęp do danych, jednocześnie zapewniając elastyczność. Otwarte architektury lakehouse mają tutaj znaczenie, ponieważ dostarczają spójnych widoków danych w czasie rzeczywistym w różnych silnikach — zwłaszcza w przypadku agentowych przepływów pracy, które zależą od niezawodnego generowania wspomaganego wyszukiwaniem (RAG) i wnioskowania. 

    Nadawanie kontekstu: zapewnianie agentom czegoś więcej niż sam dostęp

    Po połączeniu danych wyzwanie przenosi się na ułatwianie agentom zrozumienia, jakie dane istnieją i jak są używane. Zaczyna się od odnajdywania: automatycznego identyfikowania źródeł danych w chmurze i systemach lokalnych oraz aktywowania metadanych — nazw tabel, pól, formatów i innych. Narzędzia takie jak Cloudera Octopai Data Lineage skanują skrypty ETL, przeprowadzają wsteczną inżynierię logiki potoku i przechwytują sposób, w jaki dane przemieszczają się i przekształcają w systemach od źródła do miejsca docelowego, rejestrując wszystkie zależności na ich drodze.

    Te informacje stanowią podstawę dla ustalania pochodzenia, które pokazuje, jak zbiory danych są powiązane i jak zmieniają się w czasie. Ustalanie pochodzenia ma znaczenie, gdy trzeba zweryfikować rezultat, wyjaśnić zalecenie lub działanie agenta, albo prześledzić niewłaściwy wynik aż do jego źródła. Daje przejrzystość i zaufanie do systemów, z którymi współpracują agenty.

    Na koniec katalogowanie umieszcza te informacje w użytecznej strukturze. Scentralizowany magazyn metadanych pomaga zarówno ludziom, jak i agentom, zlokalizować to, czego potrzebują, zrozumieć relacje między zbiorami danych i poznać zasady wpływające na sposób, w jaki dane powinny być obsługiwane. Solidny katalog działa jak schemat — dostarcza wykresu wiedzy, który daje agentom przejrzystą, łatwą w nawigacji mapę zasobów danych przedsiębiorstwa. Przechwytuje metadane techniczne, operacyjne i biznesowe, w tym wszystkie definicje biznesowe i logikę biznesową wymagane do zrozumienia danych i podejmowania działań. 

    Nadawanie kontekstu umożliwia agentom coś więcej niż tylko pobieranie informacji. Pozwala im odkrywać wzorce, zadawać lepsze pytania i podejmować decyzje z głębszym zrozumieniem środowiska, w którym działają.

    Konsumowanie: dostarczanie odpowiedniego kontekstu we właściwym czasie

    Ostatnim krokiem budowania systemów agentowych jest umożliwienie sztucznej inteligencji działania w sposób możliwy do śledzenia, bezpieczny i oparty na właściwych informacjach. Właśnie tutaj mają znaczenie decyzje architektoniczne — limity, obserwowalność i kontrolowany dostęp kształtują to, czy agenci zachowują się przewidywalnie, gdy jest to ważne.

    Uznaliśmy za przydatne zamapowanie typowych technik inżynierii kontekstowej na podstawowe wyzwania dotyczące danych, które mają rozwiązywać. Oto kilka przykładów tego, jak przejawiają się w praktyce:

    Wyzwanie dotyczące gotowości danych

    Technika inżynierii kontekstowej

    Podejście Cloudera

    Wyciek danych poufnych do poleceń

    Inżynieria poleceń

    Bramy poleceń do redagowania danych poufnych

    Nieuporządkowane, nieustrukturyzowane dane lub przestarzałe indeksy wektorowe

    RAG

    Zarządzane i bezpieczne potoki danych przesyłanych strumieniowo w czasie rzeczywistym

    Brak pochodzenia, kruche zestawy treningowe

    Dostrajanie

    Poprawa wyjaśnialności sztucznej inteligencji dzięki śledzeniu pochodzenia

    Agenty przekraczające granice, nieprzejrzyste decyzje

    Dostęp do narzędzia / interfejsu API

    Tagowanie metadanych, autonomiczna klasyfikacja danych, szczegółowy dostęp i pełne ścieżki audytu w każdym wywołaniu systemowym

    Agenty niezdolne do uzyskiwania dostępu do wewnętrznej wiedzy przedsiębiorstwa

    Protokoły kontekstu modelu (MCP)

    Kontrolowany dostęp do kontekstu obsługiwanego przez Apache Iceberg z katalogami REST

    Wybór odpowiedniej techniki zależy od roli agenta, poufności danych i środowiska operacyjnego. Poniżej znajdują się typowe przypadki użycia w przedsiębiorstwie i zalecane połączenia, które dobrze sprawdziły się w praktyce:

    Przykład wykorzystania

    Zalecane metody

    Asystent wiedzy wewnętrznej

    RAG + wektorowa baza danych + plan awaryjny inżynierii poleceń

    Bot umożliwiający obsługę sprzedaży z danymi z systemu zarządzania relacjami z klientami (CRM)

    Wywoływanie funkcji + wstrzyknięcie kontekstu biznesowego

    Agent pomocy technicznej dla konkretnego produktu

    Dostrajanie lub RAG + wspólny kontekst MCP

    Wieloagentowy przepływ pracy analityki danych do wyodrębniania analiz 

    LangGraph + MCP + dostęp do narzędzia + pofragmentowana pamięć

    Rozumienie dokumentów (PDF, Excel)

    Wielomodalne dane wejściowe + potoki wstępnego przetwarzania

    Takie podejście do konsumpcji zapewnia, że agenty działają precyzyjnie, bezpiecznie i dostosowują się do celów biznesowych.

    Wnioski: od struktury do działań

    W firmie Cloudera spędziliśmy lata na eksplorowaniu złożoności danych przedsiębiorstw: łączeniu silosów, egzekwowaniu zarządzania, budowaniu bezpiecznych potoków dla sztucznej inteligencji i analizy oraz analizie pochodzenia danych w środowiskach hybrydowych. Gdy więc zaczęły pojawiać się wzorce agentowej sztucznej inteligencji, nie zaczynaliśmy od zera. Wiedzieliśmy, gdzie znajduje się kontekst i jak go bezpiecznie uchwycić, stosując odpowiednie limity.

    Dzięki rozwiązaniu Cloudera Octopai Data Lineage zespoły mogą automatycznie mapować przepływy danych, śledzić zależności i katalogować metadane w środowiskach chmurowych i lokalnych. Dodanie do tego warstw katalogów danych, obserwowalności i kontroli dostępu sprawia, że agenty mogą bezpieczniej i inteligentniej wchodzić w interakcje z systemami. Zespoły zyskują wgląd, zarządzanie i zaufanie, co ma kluczowe znaczenie dla skalowania tych przepływów pracy w całym przedsiębiorstwie.

    Aby umożliwić podejmowanie działań na tych elementach, zintegrowaliśmy te możliwości z naszymi rozwiązaniami Open Data Lakehouse i Cloudera AI Studios, udostępniając przedsiębiorstwom fundament do projektowania i wdrażania systemów agentowych w środowisku produkcyjnym oraz zarządzania nimi.

    Dowiedz się więcej o tym, jak Cloudera może pomóc w produkcji agentów AI z odpowiednim, potrzebnym im kontekstem biznesowym.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.