Zdarzyło Ci się kiedykolwiek obiecać komuś księżyc? Jeśli tak, jest mało prawdopodobne, że cena była znana z góry.
Natomiast, jeśli obiecujesz chmurę, możesz obliczyć koszty z dokładnością do tysięcznej części grosza.
Dostawcy Amazon, Azure i Google oferują kalkulatory kosztów składowania danych w chmurze, które swoją szczegółowością przyprawiają o zawrót głowy: ile TiB danych potrzebujesz do strumieniowego przesyłania odczytów w Google BigQuery? Czy potrzebujesz instancji ra3.4xlarge, czy ra3.xlplus w Amazon Redshift — i ile węzłów?
Przechowywanie danych w chmurze jest często reklamowane jako bardziej opłacalne niż korzystanie z lokalnego składowania danych, jednak tak naprawdę do obniżenia kosztów składowania danych w chmurze jest wymagana analiza, eliminacja i optymalizacja. Przejdźmy przez nie krok po kroku.
Jednym z najprostszych sposobów na zmniejszenie kosztów składowania danych jest przechowywanie mniejszej ilości danych. Tak, to oczywiste. Nie, to nie jest łatwe.
Jest powód, dla którego masz wszystkie te dane. Czasami jest to dobry powód — jak w przypadku procesów operacyjnych, administracyjnych i biznesowych — ale czasami powód nie jest aż tak poważny, na przykład „jeszcze się tego nie pozbyliśmy”.
W każdym ekosystemie danych istnieją dane przestarzałe, zbędne i niskiej jakości, których można — i należy — się pozbyć. Ale jak je zlokalizować?
Odpowiedzią jest automatyczne ustalanie pochodzenia danych: wierny asystent zarządcy danych.
Wyobraź sobie, że masz magiczną różdżkę, która pomaga w wiosennych porządkach. Ta różdżka informuje, gdzie kupiono każdy przedmiot znajdujący się w gospodarstwie domowym, kiedy go ostatnio używano, w jakim jest stanie, czy masz inne przedmioty, które pełnią tę samą funkcję i tak dalej.
To właśnie robi automatyczne ustalanie pochodzenia danych dla ekosystemu danych. Wystarczy kilka minut, aby uzyskać kompletne mapowanie przepływu danych: które zasoby danych są podstawą których raportów i jakie są ich źródła. Kompleksowe pochodzenie danych pokazuje to zarówno na oddalonym poziomie systemu źródłowego, jak i na przybliżonym poziomie między poszczególnymi kolumnami. Może nawet dotrzeć do procesów ETL i dokładnie pokazać, jakie transformacje wykonano na danych podczas ich przenoszenia.
Po zamapowaniu pełnego obrazu można przejść do etapu drugiego: eliminacji.
Przyjrzyj się bliżej pochodzeniu swoich danych i zadaj następujące pytania:
Odpowiedź „tak” wskazuje na dane, które można przenieść, co bezpośrednio zmniejsza koszty przechowywania w chmurze. Ale przenoś je z rozwagą! Nawet jeśli zidentyfikowano dwa zasoby danych, które są w rzeczywistości duplikatami, jeśli oba są używane w dalszych raportach, nie można po prostu usunąć jednego z nich przed ustawieniem jego zastępstwa.
Wykorzystanie pochodzenia danych do analizy wpływu pozwala przewidzieć wpływ zmiany procesu biznesowego i z wyprzedzeniem podjąć odpowiednie działania, aby zapobiec problemom.
Teraz, gdy zidentyfikowano i wyeliminowano dane, które nie są potrzebne (przestarzałe, nadmiarowe, złej jakości), czas przejść do danych, które należy zachować, ale można przechowywać bardziej efektywnie.
Przyjrzyj się jeszcze raz mapowaniu pochodzenia danych i zadaj następujące pytania dotyczące przechowywanych danych:
Dostawcy składowania danych w chmurze zwykle oferują szereg poziomów przechowywania, które różnią się dostępnością. Na przykład Amazon S3 oferuje magazyn Standard dla często używanych danych (0,023 USD za GB), magazyn Standard — Infrequent Access dla danych, do których niezbyt często uzyskuje się dostęp, ale w razie potrzeby powinny być pobierane w ciągu milisekund (0,0125 USD za GB), magazyn Glacier Flexible Retrieval dla archiwów i kopii zapasowych danych, które powinny być pobierane w ciągu od 1 minuty do 12 godzin (0,0036 USD za GB), oraz magazyn Glacier Deep Archive dla danych archiwalnych, do których dostęp jest używany tylko raz lub dwa razy w roku, i których pobieranie będzie trwać 12 godzin (0,00099 USD za GB).
Składowanie 1 TB danych w magazynie Standard kosztowałoby 23 USD miesięcznie. Składowanie tego samego 1 TB danych w magazynie Glacier Deep Archive Storage kosztowałoby 0,99 USD miesięcznie! Jeśli Twoja organizacja obecnie umieszcza wszystkie swoje dane w standardowym magazynie w chmurze bez różnicowania według potrzeb związanych z dostępem, optymalizacja pamięci masowej może znacznie obniżyć koszty składowania.
Pochodzenie danych może obniżyć koszty składowania danych przez ukazanie zarówno:
Ale to nie wszystko! Chociaż mniejsza ilość danych zmniejsza koszty składowania w chmurze, może również obniżyć koszty obliczeniowe. Hurtownie danych w chmurze, takie jak Snowflake i Amazon Redshift, zwykle mają dla obliczeń model płatności zgodnie z użyciem, naliczając opłaty za czas potrzebny do uruchamiania zapytań w zbiorach danych. Im więcej danych uwzględnisz w zapytaniu, tym dłużej potrwa jego wykonywanie i tym wyższa będzie opłata.
Zmniejszenie ilości danych składowanych (lub przechowywanych w standardowym magazynie) zwykle oznacza mniej danych uwzględnionych w zapytaniach, co pośrednio obniża koszty obliczeniowe. Ustalanie pochodzenia danych zapewnia jednak również bezpośredni sposób na obniżenie kosztów obliczeniowych: ograniczenie zapytań eksploracyjnych.
Zapytania eksploracyjne zwykle zużywają dużo mocy obliczeniowej. Dzięki przejrzystej mapie pochodzenia danych zespół ds. danych może dokładnie zobaczyć, gdzie znajdują się odpowiednie dane, co umożliwi im uruchamianie znacznie bardziej ukierunkowanych zapytań na platformie i wyeliminuje lub ograniczy potrzebę ogólnych zapytań eksploracyjnych.
Jeśli koszty składowania danych w chmurze przytłaczają Cię, najwyższy czas odwrócić sytuację i obniżyć je. Po prostu wyciągnij swoją magiczną różdżkę automatycznego ustalania pochodzenia danych i wykonaj te kroki: Badanie! Eliminacja! Optymalizacja!
Widzisz, jak maleją koszty składowania danych? Oczywiście, może to wymagać nieco więcej pracy. Ale gdy przedsiębiorstwo otrzyma kolejny, niższy rachunek od dostawcy usług w chmurze, nadal będzie to dostarczać magicznych doznań.
Chcesz dowiedzieć się więcej? Zamów wersję demonstracyjną, aby zacząć korzystać z Cloudera Octopai Data Lineage—rozwiązania do automatycznego ustalania pochodzenia danych, które może już dziś pomóc Ci wdrożyć te kroki i obniżyć koszty składowania w chmurze.
This may have been caused by one of the following: