ClouderaNOW Dowiedz się więcej o agentach AI, przenoszeniu do chmury i strukturach danych dla sztucznej inteligencji | 8 kwietnia

Zarejestruj się
  • Cloudera Cloudera
  • | Business

    3 kroki do obniżenia kosztów chmury dzięki pochodzeniu danych

    Ron Pick headshot

    Zdarzyło Ci się kiedykolwiek obiecać komuś księżyc? Jeśli tak, jest mało prawdopodobne, że cena była znana z góry.

    Natomiast, jeśli obiecujesz chmurę, możesz obliczyć koszty z dokładnością do tysięcznej części grosza. 

    Dostawcy Amazon, Azure i Google oferują kalkulatory kosztów składowania danych w chmurze, które swoją szczegółowością przyprawiają o zawrót głowy: ile TiB danych potrzebujesz do strumieniowego przesyłania odczytów w Google BigQuery? Czy potrzebujesz instancji ra3.4xlarge, czy ra3.xlplus w Amazon Redshift — i ile węzłów?

    Przechowywanie danych w chmurze jest często reklamowane jako bardziej opłacalne niż korzystanie z lokalnego składowania danych, jednak tak naprawdę do obniżenia kosztów składowania danych w chmurze jest wymagana analiza, eliminacja i optymalizacja. Przejdźmy przez nie krok po kroku.

    Krok 1. Badanie

    Jednym z najprostszych sposobów na zmniejszenie kosztów składowania danych jest przechowywanie mniejszej ilości danych. Tak, to oczywiste. Nie, to nie jest łatwe.

    Jest powód, dla którego masz wszystkie te dane. Czasami jest to dobry powód — jak w przypadku procesów operacyjnych, administracyjnych i biznesowych — ale czasami powód nie jest aż tak poważny, na przykład „jeszcze się tego nie pozbyliśmy”. 

    W każdym ekosystemie danych istnieją dane przestarzałe, zbędne i niskiej jakości, których można — i należy — się pozbyć. Ale jak je zlokalizować?

    Odpowiedzią jest automatyczne ustalanie pochodzenia danych: wierny asystent zarządcy danych.

    Wyobraź sobie, że masz magiczną różdżkę, która pomaga w wiosennych porządkach. Ta różdżka informuje, gdzie kupiono każdy przedmiot znajdujący się w gospodarstwie domowym, kiedy go ostatnio używano, w jakim jest stanie, czy masz inne przedmioty, które pełnią tę samą funkcję i tak dalej.

    To właśnie robi automatyczne ustalanie pochodzenia danych dla ekosystemu danych. Wystarczy kilka minut, aby uzyskać kompletne mapowanie przepływu danych: które zasoby danych są podstawą których raportów i jakie są ich źródła. Kompleksowe pochodzenie danych pokazuje to zarówno na oddalonym poziomie systemu źródłowego, jak i na przybliżonym poziomie między poszczególnymi kolumnami. Może nawet dotrzeć do procesów ETL i dokładnie pokazać, jakie transformacje wykonano na danych podczas ich przenoszenia. 

    Po zamapowaniu pełnego obrazu można przejść do etapu drugiego: eliminacji.

    Krok 2. Eliminacja

    Przyjrzyj się bliżej pochodzeniu swoich danych i zadaj następujące pytania:

    • Czy którekolwiek z tych zasobów danych lub zastosowań danych (na przykład raporty) są nadmiarowe?
    • Czy którekolwiek z tych zasobów danych lub zastosowań danych są nieaktualne lub w inny sposób przestały być istotne?

    Odpowiedź „tak” wskazuje na dane, które można przenieść, co bezpośrednio zmniejsza koszty przechowywania w chmurze. Ale przenoś je z rozwagą! Nawet jeśli zidentyfikowano dwa zasoby danych, które są w rzeczywistości duplikatami, jeśli oba są używane w dalszych raportach, nie można po prostu usunąć jednego z nich przed ustawieniem jego zastępstwa. 

    Wykorzystanie pochodzenia danych do analizy wpływu pozwala przewidzieć wpływ zmiany procesu biznesowego i z wyprzedzeniem podjąć odpowiednie działania, aby zapobiec problemom.

    Teraz, gdy zidentyfikowano i wyeliminowano dane, które nie są potrzebne (przestarzałe, nadmiarowe, złej jakości), czas przejść do danych, które należy zachować, ale można przechowywać bardziej efektywnie.

    Krok 3. Optymalizacja

    Przyjrzyj się jeszcze raz mapowaniu pochodzenia danych i zadaj następujące pytania dotyczące przechowywanych danych:

    • Do czego te dane są używane?
    • Jak często trzeba uzyskiwać do nich dostęp?
    • Jak szybko muszą być dostępne, gdy trzeba uzyskać do nich dostęp?

    Dostawcy składowania danych w chmurze zwykle oferują szereg poziomów przechowywania, które różnią się dostępnością. Na przykład Amazon S3 oferuje magazyn Standard dla często używanych danych (0,023 USD za GB), magazyn Standard — Infrequent Access dla danych, do których niezbyt często uzyskuje się dostęp, ale w razie potrzeby powinny być pobierane w ciągu milisekund (0,0125 USD za GB), magazyn Glacier Flexible Retrieval dla archiwów i kopii zapasowych danych, które powinny być pobierane w ciągu od 1 minuty do 12 godzin (0,0036 USD za GB), oraz magazyn Glacier Deep Archive dla danych archiwalnych, do których dostęp jest używany tylko raz lub dwa razy w roku, i których pobieranie będzie trwać 12 godzin (0,00099 USD za GB).

    Składowanie 1 TB danych w magazynie Standard kosztowałoby 23 USD miesięcznie. Składowanie tego samego 1 TB danych w magazynie Glacier Deep Archive Storage kosztowałoby 0,99 USD miesięcznie! Jeśli Twoja organizacja obecnie umieszcza wszystkie swoje dane w standardowym magazynie w chmurze bez różnicowania według potrzeb związanych z dostępem, optymalizacja pamięci masowej może znacznie obniżyć koszty składowania. 

    Od składowania do obliczeń i z powrotem

    Pochodzenie danych może obniżyć koszty składowania danych przez ukazanie zarówno:

    • które dane można wyeliminować,
    • które dane można przechowywać bardziej efektywnie.

    Ale to nie wszystko! Chociaż mniejsza ilość danych zmniejsza koszty składowania w chmurze, może również obniżyć koszty obliczeniowe. Hurtownie danych w chmurze, takie jak Snowflake i Amazon Redshift, zwykle mają dla obliczeń model płatności zgodnie z użyciem, naliczając opłaty za czas potrzebny do uruchamiania zapytań w zbiorach danych. Im więcej danych uwzględnisz w zapytaniu, tym dłużej potrwa jego wykonywanie i tym wyższa będzie opłata. 

    Zmniejszenie ilości danych składowanych (lub przechowywanych w standardowym magazynie) zwykle oznacza mniej danych uwzględnionych w zapytaniach, co pośrednio obniża koszty obliczeniowe. Ustalanie pochodzenia danych zapewnia jednak również bezpośredni sposób na obniżenie kosztów obliczeniowych: ograniczenie zapytań eksploracyjnych. 

    Zapytania eksploracyjne zwykle zużywają dużo mocy obliczeniowej. Dzięki przejrzystej mapie pochodzenia danych zespół ds. danych może dokładnie zobaczyć, gdzie znajdują się odpowiednie dane, co umożliwi im uruchamianie znacznie bardziej ukierunkowanych zapytań na platformie i wyeliminuje lub ograniczy potrzebę ogólnych zapytań eksploracyjnych. 

    Kolejne kroki

    Jeśli koszty składowania danych w chmurze przytłaczają Cię, najwyższy czas odwrócić sytuację i obniżyć je. Po prostu wyciągnij swoją magiczną różdżkę automatycznego ustalania pochodzenia danych i wykonaj te kroki: Badanie! Eliminacja! Optymalizacja! 

    Widzisz, jak maleją koszty składowania danych? Oczywiście, może to wymagać nieco więcej pracy. Ale gdy przedsiębiorstwo otrzyma kolejny, niższy rachunek od dostawcy usług w chmurze, nadal będzie to dostarczać magicznych doznań. 

    Chcesz dowiedzieć się więcej?  Zamów wersję demonstracyjną, aby zacząć korzystać z Cloudera Octopai Data Lineage—rozwiązania do automatycznego ustalania pochodzenia danych, które może już dziś pomóc Ci wdrożyć te kroki i obniżyć koszty składowania w chmurze.

    Your form submission has failed.

    This may have been caused by one of the following:

    • Your request timed out
    • A plugin/browser extension blocked the submission. If you have an ad blocking plugin please disable it and close this message to reload the page.