Indeks gotowości danych 2026: Zrozumienie podstaw skutecznego wdrażania sztucznej inteligencji

Zobacz wyniki

Oct 01, 2025 | Business

Wspieranie sztucznej inteligencji w przedsiębiorstwach poprzez ustrukturyzowane dane syntetyczne: zachowywanie prywatności i właściwości statystycznych źródła

7 minuta czytania • przez Andreas Tsiartas , Yi-Hsun Tsai , oraz Robert Hryniewicz

AI Enterprise Ai

W erze sztucznej inteligencji opartej na danych przedsiębiorstwa potrzebują wysokiej jakości zbiorów danych do analizowania lub trenowania modeli AI, jednak przepisy o ochronie danych osobowych oraz obawy etyczne ograniczają używanie lub udostępnianie rzeczywistych danych. Jak organizacje mogą wprowadzać innowacje bez naruszania bezpieczeństwa informacji poufnych?

W firmie Cloudera opracowaliśmy pionierskie rozwiązanie, które wypełnia tę lukę. Synthetic Data Studio firmy Cloudera — część zestawu narzędzi Cloudera AI Studio — to narzędzie, które tworzy w pełni syntetyczne zbiory danych odzwierciedlające rzeczywiste wzorce danych w organizacji. Dzięki temu organizacje mogą wprowadzać innowacje bez naruszania bezpieczeństwa informacji poufnych.

Kluczowe wnioski

Podejście Cloudera do generowania danych syntetycznych stanowi wzorzec dla przedsiębiorstw, które chcą wykorzystywać lub udostępniać poufne dane ustrukturyzowane. Główne cechy tego podejścia:

Prywatność jako cecha: dane syntetyczne stają się zasobem strategicznym umożliwiającym wprowadzanie innowacji w dziedzinach objętych ograniczeniami.

Wierność statystyczna ma znaczenie: instrukcje klastrowania i inicjujące zapewniają, że dane syntetyczne zachowują subtelne relacje sprawiające, że modele są skuteczne.

Skalowalność dla sztucznej inteligencji w przedsiębiorstwach: zautomatyzowane przepływy pracy obniżają koszty i skracają czas generowania danych syntetycznych.

Wyzwanie biznesowe: wykorzystywanie modeli sztucznej inteligencji przy jednoczesnym zapewnieniu zgodności z przepisami

Rozważ firmę świadczącą usługi finansowe, która stara się przewidzieć niespłacalność pożyczek. Dane rzeczywiste w tej dziedzinie są skarbnicą poufnych szczegółów: poziomów dochodów, historii zatrudnienia i ocen zdolności kredytowej. Udostępnianie takich danych stronom trzecim lub modelom sztucznej inteligencji jest najeżone przeszkodami regulacyjnymi i etycznymi.

Tradycyjne metody danych syntetycznych często zawodzą, nie oddając subtelnych relacji logicznych między zmiennymi — takich jak możliwy wpływ istniejących długów na zachowania związane ze spłatą — ani logicznej spójności między punktami danych w wierszach i kolumnach. Firmy potrzebują rozwiązania w zakresie danych syntetycznych, które może skalować, zachowywać integralność statystyczną danych oryginalnych i zapewniać zgodność ze standardami dotyczącymi ochrony prywatności.

Rozwiązanie Cloudera: generowanie strukturalnych danych syntetycznych

Rozwiązanie Cloudera opiera się na czteroetapowym przepływie pracy, który obejmuje techniki klastrowania, narzędzie Cloudera Synthetic Data Studio oraz rygorystyczną walidację.

Krok 1. Dane profilu

Podróż rozpoczyna się od partycjonowania i klastrowania danych w celu utworzenia profili statystycznych. Kategoryzując kredytobiorców w grupy na podstawie poziomów ryzyka — na przykład wnioskodawców o wysokim i niskim ryzyku — i dodatkowo klastrując zmienne numeryczne, takie jak kwoty pożyczek i stopy procentowe, destylujemy zbiór danych do „instrukcji inicjujących”.

Instrukcje inicjujące kodują właściwości statystyczne każdej grupy, takie jak średnie, odchylenia standardowe i korelacje, jednocześnie osadzając informacje o kredytobiorcach, takie jak klasy pożyczek lub statusy pożyczek. Ten krok zapewnia, że dane syntetyczne dziedziczą strukturę danych oryginalnych bez ujawniania poufnych szczegółów.

Krok 2. Generowanie danych przy użyciu Cloudera Synthetic Data Studio

Gdy te instrukcje inicjujące są już gotowe, w kolejnym etapie jest wykorzystywane generowanie obsługiwane przez LLM. Stosując zaawansowane modele, takie jak Llama 3.3-70B-Instruct, syntetyzujemy nowe rekordy, kierując się wzorcami statystycznymi widocznymi w instrukcjach inicjujących. Cloudera Synthetic Data Studio pełni rolę siły twórczej, generując dane, które zachowują relacje i wzorce zdefiniowane w instrukcjach inicjujących.

Właśnie tutaj dzieją się cuda: model nie tylko generuje losowe liczby, ale konstruuje dane, które odzwierciedlają złożoność realnych scenariuszy, takich jak sposób, w jaki dochód kredytobiorcy może logicznie wpłynąć na jego historię spłat.

Krok 3. Filtrowanie danych

Jednak nie wszystkie wygenerowane dane osiągają wymaganą jakość. Aby zapewnić wierność, stosujemy innowacyjny przepływ pracy LLM-as-a-Judge.

W tym kroku syntetyczne wyniki są oceniane według zestawu kryteriów, w tym spójności formatowania, spójności logicznej (na przykład zapewnienie zgodności kredytów hipotecznych ze statusem własności domu) oraz realizmu (na przykład generowanie wiarygodnych stóp procentowych). Zachowywane są tylko dane, które osiągają wysokie wyniki — próg 9 na 10. Ten proces filtrowania pełni rolę kontroli jakości, zapewniając, że końcowy zbiór danych jest miarodajny zarówno realistycznie, jak i statystycznie.

Krok 4. Walidacja danych

Ostatni etap przepływu pracy obejmuje walidację statystyczną i wizualną. Porównując dane syntetyczne z oryginalnym zbiorem danych przy użyciu metryk, takich jak dywergencja Kullbacka-Leiblera, dla zmiennych kategorycznych oraz różnice średnia / odchylenie standardowe dla cech ciągłych, potwierdzamy, że dane syntetyczne odzwierciedlają rozkłady ze świata rzeczywistego.

Wpływ: prywatność bez kompromisów

Podejście Cloudera generuje dane pozbawione informacji umożliwiających identyfikację osoby (PII) i wzorców poufnych, ale zachowuje wierność statystyczną potrzebną do trenowania dokładnych modeli. Dzięki temu firmy mogą udostępniać dane syntetyczne systemom innych firm lub współpracować z partnerami zewnętrznymi bez obaw o naruszenie danych lub kary wynikające z przepisów prawa.

Jak pokazano w Tabeli 1, stwierdzamy, że stosując model Llama 3.3 70B-Instruct do generowania danych ustrukturyzowanych o pożyczkach (łącznie 27 kolumn), 100% wygenerowanych danych odpowiada oczekiwanemu wynikowi, 97,2% nie zawiera logicznych błędów między kolumnami zgodnie z oceną przez LLM, średnie statystyczne odbiegają o 12% od pierwotnego rozkładu, a korelacje między kolumnami mają odchylenie rzędu 0,24.

Wyniki generowania danych ustrukturyzowanych przy użyciu modelu Llama 3.3-70B-Instruct
Integralność danych	100% dokładność formatu	Dane syntetyczne idealnie odzwierciedlają oryginalną strukturę.
Wierność statystyczna	Średnie odchylenie rzędu 12%	Dane syntetyczne dokładnie oddają kluczowe właściwości statystyczne oryginału.
Logiczna spójność między kolumnami	2,8% błędów logicznych	Wygenerowane dane odzwierciedlają rzeczywiste relacje logiczne.
Zachowanie korelacji między kolumnami	Różnica korelacji rzędu 0,24%	Kluczowe połączenia między cechami są autentycznie zachowane.

Tabela 1: Wyniki generowania danych ustrukturyzowanych przy użyciu modelu Llama 3.3-70B-Instruct

Wnioski

W miarę jak modele sztucznej inteligencji stają się coraz bardziej złożone, a przepisy dotyczące ochrony prywatności zaostrzają się, zapotrzebowanie na wysokiej jakości dane zgodne z przepisami dotyczącymi ochrony prywatności będzie tylko rosło. W nadchodzących latach spodziewamy się, że metodologie generowania danych ustrukturyzowanych będą na nowo definiować branże, od opieki zdrowotnej po finanse, gdzie prywatność danych nie podlega negocjacjom.

Podejście Cloudera do ustrukturyzowanych danych syntetycznych pokazuje, że przedsiębiorstwa mogą sprostać temu zapotrzebowaniu bez uszczerbku dla prywatności bądź wydajności. Łącząc klastrowanie, narzędzie Cloudera Synthetic Data Studio i rygorystyczne oceny, organizacje mogą wykorzystać cały potencjał danych ustrukturyzowanych.

Aby dowiedzieć się więcej, zapoznaj się z naszą prezentacją produktu Cloudera AI Studios lub skontaktuj się z naszym zespołem pod adresem ai_feedback@cloudera.com.

Andreas Tsiartas

Senior Staff Data Scientist, Cloudera

Więcej treści tego autora ›

Yi-Hsun Tsai

Director, Engineering, Cloudera

Więcej treści tego autora ›

Robert Hryniewicz

Director of Product Marketing

Więcej treści tego autora ›

May 28, 2026 | Business

Jak osiągnąć suwerenność danych i zyskać przewagę konkurencyjną

7 minuta czytania • Jessica Espinoza

Zaczynamy?

Your form submission has failed.

This may have been caused by one of the following:

Your request timed out
A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.