Indeks gotowości danych 2026: Zrozumienie podstaw skutecznego wdrażania sztucznej inteligencji

Zobacz wyniki
  • Cloudera Cloudera
  • | Business

    Wspieranie sztucznej inteligencji w przedsiębiorstwach poprzez ustrukturyzowane dane syntetyczne: zachowywanie prywatności i właściwości statystycznych źródła

    Andreas Tsiartas headshot
    Robert Hryniewicz headshot

    W erze sztucznej inteligencji opartej na danych przedsiębiorstwa potrzebują wysokiej jakości zbiorów danych do analizowania lub trenowania modeli AI, jednak przepisy o ochronie danych osobowych oraz obawy etyczne ograniczają używanie lub udostępnianie rzeczywistych danych. Jak organizacje mogą wprowadzać innowacje bez naruszania bezpieczeństwa informacji poufnych? 

    W firmie Cloudera opracowaliśmy pionierskie rozwiązanie, które wypełnia tę lukę. Synthetic Data Studio firmy Cloudera — część zestawu narzędzi Cloudera AI Studio — to narzędzie, które tworzy w pełni syntetyczne zbiory danych odzwierciedlające rzeczywiste wzorce danych w organizacji. Dzięki temu organizacje mogą wprowadzać innowacje bez naruszania bezpieczeństwa informacji poufnych.

    Kluczowe wnioski

    Podejście Cloudera do generowania danych syntetycznych stanowi wzorzec dla przedsiębiorstw, które chcą wykorzystywać lub udostępniać poufne dane ustrukturyzowane. Główne cechy tego podejścia:

    • Prywatność jako cecha: dane syntetyczne stają się zasobem strategicznym umożliwiającym wprowadzanie innowacji w dziedzinach objętych ograniczeniami.

    • Wierność statystyczna ma znaczenie: instrukcje klastrowania i inicjujące zapewniają, że dane syntetyczne zachowują subtelne relacje sprawiające, że modele są skuteczne.

    • Skalowalność dla sztucznej inteligencji w przedsiębiorstwach: zautomatyzowane przepływy pracy obniżają koszty i skracają czas generowania danych syntetycznych.

    Wyzwanie biznesowe: wykorzystywanie modeli sztucznej inteligencji przy jednoczesnym zapewnieniu zgodności z przepisami

    Rozważ firmę świadczącą usługi finansowe, która stara się przewidzieć niespłacalność pożyczek. Dane rzeczywiste w tej dziedzinie są skarbnicą poufnych szczegółów: poziomów dochodów, historii zatrudnienia i ocen zdolności kredytowej. Udostępnianie takich danych stronom trzecim lub modelom sztucznej inteligencji jest najeżone przeszkodami regulacyjnymi i etycznymi. 

    Tradycyjne metody danych syntetycznych często zawodzą, nie oddając subtelnych relacji logicznych między zmiennymi — takich jak możliwy wpływ istniejących długów na zachowania związane ze spłatą — ani logicznej spójności między punktami danych w wierszach i kolumnach. Firmy potrzebują rozwiązania w zakresie danych syntetycznych, które może skalować, zachowywać integralność statystyczną danych oryginalnych i zapewniać zgodność ze standardami dotyczącymi ochrony prywatności.  

    Rozwiązanie Cloudera: generowanie strukturalnych danych syntetycznych 

    Rozwiązanie Cloudera opiera się na czteroetapowym przepływie pracy, który obejmuje techniki klastrowania, narzędzie Cloudera Synthetic Data Studio oraz rygorystyczną walidację. 

    Krok 1. Dane profilu

    Podróż rozpoczyna się od partycjonowania i klastrowania danych w celu utworzenia profili statystycznych. Kategoryzując kredytobiorców w grupy na podstawie poziomów ryzyka — na przykład wnioskodawców o wysokim i niskim ryzyku — i dodatkowo klastrując zmienne numeryczne, takie jak kwoty pożyczek i stopy procentowe, destylujemy zbiór danych do „instrukcji inicjujących”. 

    Instrukcje inicjujące kodują właściwości statystyczne każdej grupy, takie jak średnie, odchylenia standardowe i korelacje, jednocześnie osadzając informacje o kredytobiorcach, takie jak klasy pożyczek lub statusy pożyczek. Ten krok zapewnia, że dane syntetyczne dziedziczą strukturę danych oryginalnych bez ujawniania poufnych szczegółów.  

    Krok 2. Generowanie danych przy użyciu Cloudera Synthetic Data Studio

    Gdy te instrukcje inicjujące są już gotowe, w kolejnym etapie jest wykorzystywane generowanie obsługiwane przez LLM. Stosując zaawansowane modele, takie jak Llama 3.3-70B-Instruct, syntetyzujemy nowe rekordy, kierując się wzorcami statystycznymi widocznymi w instrukcjach inicjujących. Cloudera Synthetic Data Studio pełni rolę siły twórczej, generując dane, które zachowują relacje i wzorce zdefiniowane w instrukcjach inicjujących.

    Właśnie tutaj dzieją się cuda: model nie tylko generuje losowe liczby, ale konstruuje dane, które odzwierciedlają złożoność realnych scenariuszy, takich jak sposób, w jaki dochód kredytobiorcy może logicznie wpłynąć na jego historię spłat.  

    Krok 3. Filtrowanie danych

    Jednak nie wszystkie wygenerowane dane osiągają wymaganą jakość. Aby zapewnić wierność, stosujemy innowacyjny przepływ pracy LLM-as-a-Judge. 

    W tym kroku syntetyczne wyniki są oceniane według zestawu kryteriów, w tym spójności formatowania, spójności logicznej (na przykład zapewnienie zgodności kredytów hipotecznych ze statusem własności domu) oraz realizmu (na przykład generowanie wiarygodnych stóp procentowych). Zachowywane są tylko dane, które osiągają wysokie wyniki — próg 9 na 10. Ten proces filtrowania pełni rolę kontroli jakości, zapewniając, że końcowy zbiór danych jest miarodajny zarówno realistycznie, jak i statystycznie.  

    Krok 4. Walidacja danych

    Ostatni etap przepływu pracy obejmuje walidację statystyczną i wizualną. Porównując dane syntetyczne z oryginalnym zbiorem danych przy użyciu metryk, takich jak dywergencja Kullbacka-Leiblera, dla zmiennych kategorycznych oraz różnice średnia / odchylenie standardowe dla cech ciągłych, potwierdzamy, że dane syntetyczne odzwierciedlają rozkłady ze świata rzeczywistego. 

    Wpływ: prywatność bez kompromisów

    Podejście Cloudera generuje dane pozbawione informacji umożliwiających identyfikację osoby (PII) i wzorców poufnych, ale zachowuje wierność statystyczną potrzebną do trenowania dokładnych modeli. Dzięki temu firmy mogą udostępniać dane syntetyczne systemom innych firm lub współpracować z partnerami zewnętrznymi bez obaw o naruszenie danych lub kary wynikające z przepisów prawa.  

    Jak pokazano w Tabeli 1, stwierdzamy, że stosując model Llama 3.3 70B-Instruct do generowania danych ustrukturyzowanych o pożyczkach (łącznie 27 kolumn), 100% wygenerowanych danych odpowiada oczekiwanemu wynikowi, 97,2% nie zawiera logicznych błędów między kolumnami zgodnie z oceną przez LLM, średnie statystyczne odbiegają o 12% od pierwotnego rozkładu, a korelacje między kolumnami mają odchylenie rzędu 0,24. 

    Wyniki generowania danych ustrukturyzowanych przy użyciu modelu Llama 3.3-70B-Instruct

    Integralność danych

    100% dokładność formatu

    Dane syntetyczne idealnie odzwierciedlają oryginalną strukturę.

    Wierność statystyczna

    Średnie odchylenie rzędu 12%

    Dane syntetyczne dokładnie oddają kluczowe właściwości statystyczne oryginału.

    Logiczna spójność między kolumnami

    2,8% błędów logicznych

    Wygenerowane dane odzwierciedlają rzeczywiste relacje logiczne.

    Zachowanie korelacji między kolumnami

    Różnica korelacji rzędu 0,24%

    Kluczowe połączenia między cechami są autentycznie zachowane.

    Tabela 1: Wyniki generowania danych ustrukturyzowanych przy użyciu modelu Llama 3.3-70B-Instruct

    Wnioski

    W miarę jak modele sztucznej inteligencji stają się coraz bardziej złożone, a przepisy dotyczące ochrony prywatności zaostrzają się, zapotrzebowanie na wysokiej jakości dane zgodne z przepisami dotyczącymi ochrony prywatności będzie tylko rosło. W nadchodzących latach spodziewamy się, że metodologie generowania danych ustrukturyzowanych będą na nowo definiować branże, od opieki zdrowotnej po finanse, gdzie prywatność danych nie podlega negocjacjom. 

    Podejście Cloudera do ustrukturyzowanych danych syntetycznych pokazuje, że przedsiębiorstwa mogą sprostać temu zapotrzebowaniu bez uszczerbku dla prywatności bądź wydajności. Łącząc klastrowanie, narzędzie Cloudera Synthetic Data Studio i rygorystyczne oceny, organizacje mogą wykorzystać cały potencjał danych ustrukturyzowanych. 

    Aby dowiedzieć się więcej, zapoznaj się z naszą prezentacją produktu Cloudera AI Studios lub skontaktuj się z naszym zespołem pod adresem ai_feedback@cloudera.com

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.