W erze sztucznej inteligencji opartej na danych przedsiębiorstwa potrzebują wysokiej jakości zbiorów danych do analizowania lub trenowania modeli AI, jednak przepisy o ochronie danych osobowych oraz obawy etyczne ograniczają używanie lub udostępnianie rzeczywistych danych. Jak organizacje mogą wprowadzać innowacje bez naruszania bezpieczeństwa informacji poufnych?
W firmie Cloudera opracowaliśmy pionierskie rozwiązanie, które wypełnia tę lukę. Synthetic Data Studio firmy Cloudera — część zestawu narzędzi Cloudera AI Studio — to narzędzie, które tworzy w pełni syntetyczne zbiory danych odzwierciedlające rzeczywiste wzorce danych w organizacji. Dzięki temu organizacje mogą wprowadzać innowacje bez naruszania bezpieczeństwa informacji poufnych.
Kluczowe wnioskiPodejście Cloudera do generowania danych syntetycznych stanowi wzorzec dla przedsiębiorstw, które chcą wykorzystywać lub udostępniać poufne dane ustrukturyzowane. Główne cechy tego podejścia:
|
Rozważ firmę świadczącą usługi finansowe, która stara się przewidzieć niespłacalność pożyczek. Dane rzeczywiste w tej dziedzinie są skarbnicą poufnych szczegółów: poziomów dochodów, historii zatrudnienia i ocen zdolności kredytowej. Udostępnianie takich danych stronom trzecim lub modelom sztucznej inteligencji jest najeżone przeszkodami regulacyjnymi i etycznymi.
Tradycyjne metody danych syntetycznych często zawodzą, nie oddając subtelnych relacji logicznych między zmiennymi — takich jak możliwy wpływ istniejących długów na zachowania związane ze spłatą — ani logicznej spójności między punktami danych w wierszach i kolumnach. Firmy potrzebują rozwiązania w zakresie danych syntetycznych, które może skalować, zachowywać integralność statystyczną danych oryginalnych i zapewniać zgodność ze standardami dotyczącymi ochrony prywatności.
Rozwiązanie Cloudera opiera się na czteroetapowym przepływie pracy, który obejmuje techniki klastrowania, narzędzie Cloudera Synthetic Data Studio oraz rygorystyczną walidację.
Podróż rozpoczyna się od partycjonowania i klastrowania danych w celu utworzenia profili statystycznych. Kategoryzując kredytobiorców w grupy na podstawie poziomów ryzyka — na przykład wnioskodawców o wysokim i niskim ryzyku — i dodatkowo klastrując zmienne numeryczne, takie jak kwoty pożyczek i stopy procentowe, destylujemy zbiór danych do „instrukcji inicjujących”.
Instrukcje inicjujące kodują właściwości statystyczne każdej grupy, takie jak średnie, odchylenia standardowe i korelacje, jednocześnie osadzając informacje o kredytobiorcach, takie jak klasy pożyczek lub statusy pożyczek. Ten krok zapewnia, że dane syntetyczne dziedziczą strukturę danych oryginalnych bez ujawniania poufnych szczegółów.
Gdy te instrukcje inicjujące są już gotowe, w kolejnym etapie jest wykorzystywane generowanie obsługiwane przez LLM. Stosując zaawansowane modele, takie jak Llama 3.3-70B-Instruct, syntetyzujemy nowe rekordy, kierując się wzorcami statystycznymi widocznymi w instrukcjach inicjujących. Cloudera Synthetic Data Studio pełni rolę siły twórczej, generując dane, które zachowują relacje i wzorce zdefiniowane w instrukcjach inicjujących.
Właśnie tutaj dzieją się cuda: model nie tylko generuje losowe liczby, ale konstruuje dane, które odzwierciedlają złożoność realnych scenariuszy, takich jak sposób, w jaki dochód kredytobiorcy może logicznie wpłynąć na jego historię spłat.
Jednak nie wszystkie wygenerowane dane osiągają wymaganą jakość. Aby zapewnić wierność, stosujemy innowacyjny przepływ pracy LLM-as-a-Judge.
W tym kroku syntetyczne wyniki są oceniane według zestawu kryteriów, w tym spójności formatowania, spójności logicznej (na przykład zapewnienie zgodności kredytów hipotecznych ze statusem własności domu) oraz realizmu (na przykład generowanie wiarygodnych stóp procentowych). Zachowywane są tylko dane, które osiągają wysokie wyniki — próg 9 na 10. Ten proces filtrowania pełni rolę kontroli jakości, zapewniając, że końcowy zbiór danych jest miarodajny zarówno realistycznie, jak i statystycznie.
Ostatni etap przepływu pracy obejmuje walidację statystyczną i wizualną. Porównując dane syntetyczne z oryginalnym zbiorem danych przy użyciu metryk, takich jak dywergencja Kullbacka-Leiblera, dla zmiennych kategorycznych oraz różnice średnia / odchylenie standardowe dla cech ciągłych, potwierdzamy, że dane syntetyczne odzwierciedlają rozkłady ze świata rzeczywistego.
Podejście Cloudera generuje dane pozbawione informacji umożliwiających identyfikację osoby (PII) i wzorców poufnych, ale zachowuje wierność statystyczną potrzebną do trenowania dokładnych modeli. Dzięki temu firmy mogą udostępniać dane syntetyczne systemom innych firm lub współpracować z partnerami zewnętrznymi bez obaw o naruszenie danych lub kary wynikające z przepisów prawa.
Jak pokazano w Tabeli 1, stwierdzamy, że stosując model Llama 3.3 70B-Instruct do generowania danych ustrukturyzowanych o pożyczkach (łącznie 27 kolumn), 100% wygenerowanych danych odpowiada oczekiwanemu wynikowi, 97,2% nie zawiera logicznych błędów między kolumnami zgodnie z oceną przez LLM, średnie statystyczne odbiegają o 12% od pierwotnego rozkładu, a korelacje między kolumnami mają odchylenie rzędu 0,24.
Wyniki generowania danych ustrukturyzowanych przy użyciu modelu Llama 3.3-70B-Instruct |
|||
Integralność danych |
100% dokładność formatu |
Dane syntetyczne idealnie odzwierciedlają oryginalną strukturę. |
|
Wierność statystyczna |
Średnie odchylenie rzędu 12% |
Dane syntetyczne dokładnie oddają kluczowe właściwości statystyczne oryginału. |
|
Logiczna spójność między kolumnami |
2,8% błędów logicznych |
Wygenerowane dane odzwierciedlają rzeczywiste relacje logiczne. |
|
Zachowanie korelacji między kolumnami |
Różnica korelacji rzędu 0,24% |
Kluczowe połączenia między cechami są autentycznie zachowane. |
|
Tabela 1: Wyniki generowania danych ustrukturyzowanych przy użyciu modelu Llama 3.3-70B-Instruct
W miarę jak modele sztucznej inteligencji stają się coraz bardziej złożone, a przepisy dotyczące ochrony prywatności zaostrzają się, zapotrzebowanie na wysokiej jakości dane zgodne z przepisami dotyczącymi ochrony prywatności będzie tylko rosło. W nadchodzących latach spodziewamy się, że metodologie generowania danych ustrukturyzowanych będą na nowo definiować branże, od opieki zdrowotnej po finanse, gdzie prywatność danych nie podlega negocjacjom.
Podejście Cloudera do ustrukturyzowanych danych syntetycznych pokazuje, że przedsiębiorstwa mogą sprostać temu zapotrzebowaniu bez uszczerbku dla prywatności bądź wydajności. Łącząc klastrowanie, narzędzie Cloudera Synthetic Data Studio i rygorystyczne oceny, organizacje mogą wykorzystać cały potencjał danych ustrukturyzowanych.
Aby dowiedzieć się więcej, zapoznaj się z naszą prezentacją produktu Cloudera AI Studios lub skontaktuj się z naszym zespołem pod adresem ai_feedback@cloudera.com.
This may have been caused by one of the following: