Jeśli nie znasz pierwszej części dotyczącej podstaw wysokowydajnych obliczeń, przeczytaj ją teraz!
Chociaż tradycyjne oprogramowanie do symulacji inżynierskich doskonale wspiera inżynierów mechaników w przygotowywaniu, wykonywaniu i analizowaniu zadań symulacyjnych, brakuje mu natywnego projektu do zarządzania nowoczesnymi przepływami pracy uczenia maszynowego (ML) i potokami danych. Otwarta architektura data lakehouse może wypełnić tę lukę, oferując inżynierom badawczo-rozwojowym solidne, nowoczesne możliwości na platformie, którą dział IT prawdopodobnie już zna.
Kluczowe przypadki użycia i korzyści wynikające z zastosowania otwartej architektury data lakehouse obejmują:
Efektywne kosztowo, kontrolowane archiwizowanie danych: oferuje praktycznie nieograniczoną, niedrogą przestrzeń do przechowywania danych, umożliwiającą archiwizację migawek symulacji (zbiorów danych generowanych przez sesje solwerów) z wielu lat. Ta pamięć masowa jest zarządzana i kontrolowana konsekwentnie we wszystkich organizacjach lub zespołach inżynierskich i IT. Co najważniejsze, istotne metadane i pochodzenie każdego zbiorów danych są zachowywane, dzięki czemu z nieprzejrzystego pliku staje się on zaufanym zasobem, który można łatwo ponownie wykorzystać bez udziału jego pierwotnego twórcy.
Uproszczony dostęp do zasobów obliczeniowych: inżynierowie mogą w prosty i szybki sposób wdrażać współdzielone notebooki oraz klastry Apache Spark lub Python Ray. Często współdzielą one te same dedykowane zasoby GPU, które są wykorzystywane przez główny klaster HPC.
Ochrona poprzez otwarte standardy: otwarta architektura data lakehouse nadaje priorytet otwartym standardom, takim jak Apache Iceberg, Parquet i Python, zamiast zastrzeżonym formatom inżynieryjnym. Jest to kluczowe z punktu widzenia ochrony własności intelektualnej (IP) firmy, zapewniając, że dane symulacyjne pozostają dostępne i użyteczne dla każdego narzędzia, teraz i w przyszłości, niezależnie od zmieniającej się infrastruktury IT firmy czy strategii dostawcy.
Doświadczenie PaaS podobne do chmury: magazyny danych (ang. data lakehouses) ustrukturyzowane jako przyjazne dla użytkownika, samoobsługowe platformy PaaS (platforma jako usługa) upraszczają korzystanie ze złożonych narzędzi inżynierii danych i MLOps, skutecznie niwelując lukę w wiedzy między użytkownikami o różnym poziomie zaawansowania technicznego i wspierając produktywną wymianę kompetencji.
Chociaż architektura data lakehouse oferuje wiele zalet, sama w sobie nie jest kompletnym rozwiązaniem dla wysoko regulowanych sektorów (takich jak lotnictwo, obronność, energetyka i motoryzacja), w których suwerenność jest wymogiem niepodlegającym negocjacjom. Mówiąc najprościej: nie każda architektura data lakehouse może być wdrażana i obsługiwana zgodnie z wymogami dotyczącymi suwerenności danych, a poleganie na chmurze publicznej niesie ze sobą znaczne ryzyko dla utrzymania najściślejszej kontroli nad własnością intelektualną.
Na przykład pojedyncza migawka z zadania z dziedziny obliczeniowej dynamiki płynów (CFD) — jak nowy projekt silnika — skutecznie reprezentuje kompletny projekt jego wydajności i projektu przemysłowego; ten zbiór danych jest klejnotem w koronie firmy. Dlatego najważniejsze jest określenie, które kluczowe niefunkcjonalne możliwości jeziora danych mogą zapewnić absolutną gwarancję prawną suwerenności operacyjnej niezbędną do przechowywania takich aktywów strategicznych. To prowadzi bezpośrednio do sedna debaty na temat różnic między rezydencją a suwerennością.
Tradycyjna definicja suwerenności jako działania w kraju macierzystym przedsiębiorstwa jest przestarzałym pojęciem, pozostałością epoki sprzed chmury. Wcześniej infrastruktura centrum danych była zazwyczaj zarządzana przez lokalny personel, z natury podlegając jej lokalnej jurysdykcji i obowiązkom prawnym firmy. Jednak wzrost oferty komercyjnej w chmurze i konieczność gwarantowania przez dostawców ekstremalnie wysokich celów na poziomie całodobowych usług w pełni umożliwiły zdalne, śledzące globalne operacje w chmurze. Ten postęp uniemożliwia zagwarantowanie — przynajmniej w regionach o standardzie handlowym — miejsca zamieszkania zespołu zarządzającego, tym samym przerywając związek między „rezydencją danych” a prawdziwą „suwerennością”.
W związku z powyższym najbardziej niezawodną architekturą do obsługi i przetwarzania krytycznych danych inżynieryjnych jest suwerenny magazyn data lakehouse: otwarta architektura data lakehouse, która jest natywnie hybrydowa i niezależna od chmury.
Takie podejście zapewnia szybkość i łatwość korzystania z usług PaaS podobnych do chmury wraz z zgodnością projektową, umożliwiając przedsiębiorstwu spełnienie krajowych lub innych zasad jurysdykcyjnych, które wymagają działania całkowicie w suwerennym, prywatnym i kontrolowanym środowisku (z takim samym personelem).
Termin |
Wyjaśnienie |
Wpływ biznesowy |
Rezydencja danych |
Dane fizycznie znajdują się na sprzęcie wewnątrz geopolitycznych granic określonego kraju. |
Obsługuje podstawowe lokalne wymagania dotyczące zgodności, niekoniecznie związane z bezpieczeństwem, ale głównie z opóźnieniami między samymi danymi a rozwiązaniami IT, które korzystają z tego konkretnego zbioru danych. |
Suwerenność operacyjna |
Zapewnia, że osoby zarządzające infrastrukturą chmury (operacje w chmurze) i ramy prawne obowiązujące dostawcę są również lokalne i podlegają właściwemu suwerennemu zarządzaniu. |
Zapobiega ryzyku żądań dostępu ze strony zagranicznych rządów, które mogłyby prawnie zmusić dostawcę do przekazania wrażliwej własności intelektualnej bez zgody firmy. |
Poza bezpieczeństwem i zgodnością z przepisami prawa suwerenna architektura data lakehouse ma kolejną kluczową zaletę: przewidywalne zarządzanie kosztami przy wdrażaniu przepływów pracy sztucznej inteligencji.
Model finansowy uruchamiania usług AI w chmurze publicznej jest z natury zmienny i oparty na użyciu, wiążący koszty bezpośrednio z metrykami użytkowania (takimi jak godziny GPU, przetworzone tokeny, wolumen operacyjny i skanowane dane). Ponieważ coraz więcej zespołów, projektów i aplikacji wykorzystuje infrastrukturę chmury, koszty rosną wykładniczo. Model ten jest szczególnie trudny przy zadaniach o dużym zapotrzebowaniu, takich jak trenowanie złożonych modeli generatywnej AI (GenAI) czy ciężkich autoenkoderów, które wymagają dedykowanego, stałego i masowego wykorzystania procesora graficznego, co często jest trudne do efektywnego udostępniania.
Przejście na suwerenną platformę data lakehouse wdrożoną w prywatnym lub kolokacyjnym centrum danych o stałych kosztach pozwala organizacji przejść na przewidywalne wydatki poprzez:
Ustanowienie inwestycji w środki trwałe: organizacje inwestują w stałą, udostępnianą infrastrukturę. Ta konfiguracja pozwala wielu zespołom i projektom korzystać z tych samych zasobów, skutecznie zmniejszając krańcowy koszt inicjowania nowych eksperymentów badawczo-rozwojowych do zera.
Eliminacja szoku związanego z rachunkami: architektura ta całkowicie eliminuje wszelkie ryzyko finansowe związane z nieoczekiwanymi, ogromnymi wydatkami, takimi jak te spowodowane wnioskowaniem o dużej skali, ciągłymi iteracyjnymi pętlami szkoleniowymi w zakresie badań i rozwoju lub wysokimi opłatami za transfer danych, które są powszechne w strefach chmury publicznej.
This may have been caused by one of the following: