Największym wyzwaniem dla analizy danych strumieniowych jest ich pozyskiwanie — w sposób szybki, bezpieczny i z zachowaniem pełnej kontroli nad procesem.
Cloudera DataFlow (CDF), wcześniej znana jako Hortonworks DataFlow (HDF), to skalowalna platforma do przetwarzania danych strumieniowo - pozyskiwania, transformacji i analizy danych oraz podejmowania decyzji w czasie rzeczywistym.
DataFlow pomaga w głównych wyzwaniach związanych z danymi w ruchu:
- Przetwarzanie danych o dużym wolumenie w czasie rzeczywistym
- Śledzeniu ścieżki pochodzenia i przepływu danych
- Zarządzaniu i monitorowaniu agentów w urządzeniach brzegowych i źródłach danych strumieniowych
Platforma Cloudera DataFlow
W skład naszej otwartej platformy do streamingu i przetwarzania danych w czasie rzeczywistym wchodzi Cloudera Edge Management, Cloudera Flow Management i Cloudera Stream Processing.

Główne korzyści
Zredukuj czas potrzebny na integrację danych
Wyobraź sobie, że możesz bez wysiłku i pisania kodu tworzyć złożone procesy przetwarzania danych. CDF posiada prosty, wizualny interfejs użytkownika, który pozwala tworzyć zaawansowane procesy przetwarzania danych, począwszy od ekstrakcji danych, po zaawansowane transformacje, po ładowanie do systemów docelowych. Rozwiązanie CDF, oparte o technologie Apache NiFi, umożliwia ekstrakcję danych z wielu rozwiązań klasy enterprise, baz danych, systemów plików, chmury, interfejsów udostępnionych przez firmy partnerskie i aplikacji generujących dane w czasie rzeczywistym na urządzeniach brzegowych.
Zarządzaj przepływem danych z urządzeń brzegowych
Za pomocą technologi Minifi, CDF umożliwia ekstrakcje dużych wolumenów danych z urządzeń brzegowych. Platforma może służyć jako fundament do budowy zaawansowanej platformy IoT pozyskującej i przetwarzającej dane z tysięcy urządzeń brzegowych w czasie rzeczywistym, jak również do efektywnego przesyłania danych z regionów do centrali, lub chmury do lokalnego centrum danych. Dzięki integracji z Apache Ranger, CDF zapewnia pełne bezpieczeństwo danych w ruchu i spoczynku.
Szybki dostęp do informacji w czasie rzeczywistym
Dostęp do informacji w czasie rzeczywistym oraz praktyczne rozwiązania AI sprawiają, że możesz działać szybciej. Rozwiązanie CDF, obsługiwane przez niezwykle skuteczną platformę do przesyłu danych strumieniowych,Apache Kafka, jest w stanie przetwarzać kilka milionów transakcji na sekundę, identyfikować kluczowe wzorce oraz porównywać różne modele uczenia maszynowego. Dodatkowo narzędzie oferuje analitykę predykcyjną i preskrypcyjną, które pomagają kierownictwu firm podejmować kluczowe decyzje i wykorzystywać nadarzające się okazje.
Wsparcie dla regulacji i przepisów
CDF to jedyny na rynku produkt umożliwiający analizę przepływu danych i wszystkich zmian w procesie od urządzeń brzegowych po docelowe aplikacje i repozytoria danych. W dobie RODO i innych restrykcyjnych przepisów prawnych możliwość śledzenia pochodzenia i źródeł wszystkich danych, nawet strumieniowych, nabiera jeszcze większej wartości. NiFi, jeden z głównych komponentów CDF, pozwala na śledzenie przepływu danych automatycznie, bez potrzeby jakiejkolwiek konfiguracji.. Dzięki ścisłej współpracy z Apache Atlas, masz pełną kontrolę nad danymi w ich drodze ze źródeł po aplikacje wykorzystywane przez użytkowników.
Architektura danych skalująca się do wymagań IoT
Wykorzystuj bogactwo danych IoT
CDF to rozwiązanie w 100 procentach otwarte, pozwalające na projektowanie przyszłej architektury bez ryzyka uzależnienia się od usług jednego dostawcy. Pozwala na wdrażanie rozwiązań IoT w najważniejszych obszarach w takich branżach jak motoryzacja, produkcja przemysłowa, transport, usługi komunalne, handel detaliczny i sektor publiczny. Umożliwia adopcję strategii dla danych obejmującą duże wolumeny, zdywersyfikowane typy i źródła, oraz dużą zmienność i dynamikę przepływu danych.