Cloudera liderem w rankingu The Forrester Wave™: Data Fabric Platforms na 4. kwartał 2025 r.

Przeczytaj raport
  • Cloudera Cloudera
  • | Business

    Nadszedł czas, aby instytucje szkolnictwa wyższego opanowały pochodzenie danych

    Jeremiah Morrow Headshot
    Hilary Billingslea
    Art Jordan
    Osoba z publiczności rozmawia

    W dzisiejszych środowiskach urzędowych, samorządowych i edukacyjnych (SLED) — zwłaszcza w szkolnictwie wyższym – budżety podlegają stałej kontroli, a zapotrzebowanie na doskonałość danych jest niezmienne. Oznacza to wykonywanie większej liczby zadań przy mniejszej liczbie zasobów. Jedną z ważnych zmian w przepływie pracy z danymi, która może przekształcić jakość danych i sztucznej inteligencji, jednocześnie obniżając koszty, jest automatyzacja i dokumentowanie pochodzenia danych.

    Instytucje szkolnictwa wyższego zmagają się ze złożonością danych: krytyczne dane są rozproszone w systemach i środowiskach, które nigdy nie zostały zaprojektowane do wzajemnej komunikacji — w lokalnych bazach danych, środowiskach chmurowych i urządzeniach brzegowych. Zarządzanie polami, takimi jak identyfikatory studenckie, identyfikatory grantów lub dotychczasowe wyniki dotacji w różnych źródłach i zespołach, jest konieczne, ale trudne, czasochłonne i podatne na błędy. 

    Bez uprzedniego posiadania zaufanych, wysokiej jakości danych przypadki użycia analiz o dużym wpływie i sztucznej inteligencji pozostają jedynie w sferze marzeń. Jeśli jednak instytucje szkolnictwa wyższego mają ujednolicony obraz pochodzenia danych w różnych systemach, mogą z powodzeniem wykorzystać te dane do spostrzeżeń opartych na sztucznej inteligencji i działań w zakresie opracowywania programów nauczania, rekrutacji studentów, zatrzymywania studentów, efektywnych operacji kampusowych, migracji do chmury i wielu innych.

    Cloudera Data Lineage zapewnia zautomatyzowany i spójny sposób mapowania przepływu danych od ich utworzenia (źródła) do ich ostatecznego wykorzystania (BI lub AI). Bardzo szybko zbiera i interpretuje metadane, pomagając organizacjom stworzyć kompleksowy wykres wiedzy, który dokładnie pokazuje, jak dane są tworzone, przekształcane i konsumowane — konsekwentnie na całej mapie bez żadnych luk.

    Osiągnięcie doskonałości danych dzięki Cloudera Data Lineage

    W naszym ostatnim webinarium, Budowanie zaufania i zgodności z przepisami w organizacjach SLED, zorganizowanym przez firmę Cloudera i jej partnera, firmę Carahsoft — panelista Art Jordan (dyrektor ds. sprzedaży Go-to-Market, produkty Data Intelligence dla Cloudera Data Lineage) zauważa, że „pochodzenie danych jest problemem wartym miliardów dolarów”. Jeśli polegasz na ręcznych procesach i masz martwe punkty w mapowaniu danych, brak efektywności i opóźnienia są nieuniknione, co stwarza poważne wyzwania związane z dającymi się wyjaśnić sztuczną inteligencją, prywatnością danych osobowych (PII) oraz zgodnością z przepisami.

    Cloudera Data Lineage rozwiązuje te problemy, dostarczając szczegółowe widoki pochodzenia z zależnościami i transformacjami, konsekwentnie na całej mapie:

    • Pochodzenie międzysystemowe: zapewnia pochodzenie danych na poziomie systemu od punktu wejścia aż po raportowanie, analizy i każdego odbiorcę danych.

    • Pochodzenie wewnątrzsystemowe: szczegółowo opisuje ścieżkę pochodzenia na poziomie zasobów w ramach procesu wyodrębniania, przekształcania i ładowania (ETL), raportowania lub obiektu bazy danych. Obejmuje to sprawdzenie, w jaki sposób pole jest wyprowadzane lub obliczane w potoku lub repozytorium.

    • Pochodzenie kompleksowe: kompleksowa ścieżka pochodzenia na poziomie zasobów między systemami. Uwzględnia to złożone relacje, w których jedno pole może zasilać wiele systemów lub pochodzić z wielu źródeł (od jednego do wielu lub od wielu do jednego).

    Opanowanie pochodzenia danych umożliwia instytucjom szkolnictwa wyższego szybkie analizowanie i mapowanie w przeszłości i w przyszłości. Zapewnia kompleksową widoczność i zarządzanie, umożliwiając organizacjom zrozumienie, dokąd trafiają ich dane, skąd pochodzą i w jaki sposób zostały wygenerowane. Ta przejrzystość i możliwość zagwarantowania integralności są kluczowe dla zapewnienia zaufanych, wysokiej jakości danych do wykorzystania w modelach AI, które są dostarczane kadrze kierowniczej wyższego szczebla i partnerom zewnętrznym.

    Historia sukcesu: jak Uniwersytet Arizony zwiększył efektywność i obniżył koszty dzięki Cloudera Data Lineage

    Uniwersytet Arizony, główny uniwersytet badawczy, wdrożył rozwiązanie Cloudera Data Lineage w swoim Dziale Analityki Uniwersyteckiej i Badań Instytucjonalnych. W ich środowisku każdej nocy uruchamiano 10 000 zadań ekstrakcji, transformacji i ładowania (ETL) i przechowywano blisko 40 000 odrębnych kolumn w magazynie danych. Tak duża ilość danych utrudniała ręczną ich dokumentację.

    Uczelnia osiągnęła znaczny wzrost wydajności i redukcję kosztów poprzez:

    • Przeprowadzanie analizy wpływu ETL: analiza wpływu głównych aktualizacji PeopleSoft (które zmieniają typy i długości danych lub usuwają kolumny) zajmowała zespołowi inżynierii danych tydzień lub dłużej. Narzędzie Cloudera Data Lineage skróciło ten czas do kilku dni.

    • Konsolidacja artefaktów: każde zadanie ETL wykorzystuje zasoby obliczeniowe, pamięci masowej i rejestrowania. Korzystając z kompleksowego widoku metadanych Cloudera, Uniwersytet Arizony skonsolidował artefakty, redukując liczbę zadań ETL z 10 000 do 8000. Ta 20-procentowa redukcja obniżyła koszty infrastruktury, zmniejszyła złożoność potoków oraz zmniejszyła koszty operacyjne, jednocześnie poprawiając spójność danych i zarządzanie w całym środowisku.  

    • Wykorzystanie szybkiego odkrywania: używając modułu odkrywania Cloudera Data Lineage, zespół skompilował listę wszystkich zadań ETL zawierających określone zakomentowane instrukcje SQL. Ręczne wykonanie tego zadania — wymaganego przy dużej modernizacji systemu — zajęłoby mnóstwo czasu, ale zostało wykonane natychmiast dzięki automatyzacji.

    Co najważniejsze, rozwiązanie Cloudera Data Lineage zwiększyło gotowość do audytu i dokładność danych, zapewniając interesariuszom przejrzysty wgląd w przepływ danych przez kanały, repozytoria i raporty BI. Zamiast polegać wyłącznie na zespole inżynierii danych w ręcznym śledzeniu pochodzenia i transformacji danych, zespoły ds. zgodności, badań instytucjonalnych i finansowych mogły niezależnie zweryfikować, skąd pochodzą dane i jak zostały obliczone. Zmniejszyło to ryzyko zgłaszania błędów, przyspieszyło odpowiedzi na zapytania regulacyjne i akredytacyjne i nie tylko — a wszystko to zmniejszyło presję na budżety i zasoby IT.

    Zrób następny krok

    Czy na pewno Twoja organizacja może udowodnić zgodność i dokładność danych w trakcie kontroli budżetu lub szybkiej zmiany operacyjnej? Jaka jest najbardziej złożona transformacja potoku danych, którą chcesz automatycznie udokumentować i zmapować w przyszłym tygodniu? 

    Porozmawiajmy o tym, w jaki sposób Cloudera Data Lineage może pomóc Ci osiągnąć doskonałość danych. 

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.