Informacje ogólne
Co to jest Stream Processing?
Rozwiązanie Cloudera Stream Processing umożliwia klientom przekształcanie strumieni w produkty danych dzięki analizowaniu strumieni danych pod kątem złożonych wzorców i uzyskiwaniu praktycznych informacji.
Narzędzie Stream Processing bazuje na technologiach Apache Flink i Kafka. Jest to kompletne, wysokiej jakości rozwiązanie do zarządzania strumieniami danych i stanowego przetwarzania. Połączenie technologii Kafka obsługującej strumienie i magazyny danych i technologii Flink będącej podstawowym mechanizmem przetwarzania in-stream z doskonałą obsługą standardowych interfejsów branżowych, takich jak SQL i REST, pozwala deweloperom, analitykom danych i mistrzom danych łatwo tworzyć hybrydowe potoki strumieni danych zasilające produkty danych w czasie rzeczywistym, pulpity nawigacyjne, aplikacje do analizy danych biznesowych, mikrousługi i notebooki analizy danych.
Szerokie spektrum możliwych zastosowań obejmuje wykrywanie oszustw, analizę zagrożeń sieciowych, analizę danych produkcyjnych, optymalizację handlu, obsługę ofert w czasie rzeczywistym, natychmiastowe zatwierdzanie pożyczek i wiele innych. Są one dostępne dzięki przesunięciu przetwarzania danych w górę strumienia, co umożliwiło uwzględnienie tych zastosowań wymagających działania w czasie rzeczywistym.
HYBRYDOWE POTOKI DANYCH PRZESYŁANYCH STRUMIENIOWO OBSŁUGIWANE
PRZEZ STREAM PROCESSING
Przypadki wykorzystania przetwarzania strumieniowego
Wykrywanie oszustw
Analityka klientów
Monitorowanie rynku
Analityka logów
Wykrywanie oszustw
Zapobiegaj stratom wynikającym z oszustw finansowych, proaktywnie je wykrywając.
Przedsiębiorstwa z sektora handlu detalicznego, usług finansowych i innych branż starają się zapewnić ochronę danych klientów i zapobiegać oszustwom finansowym. Funkcje przetwarzania strumieniowego Cloudera umożliwiają przetwarzanie strumieni transakcji klientów w czasie rzeczywistym, identyfikowanie wzorców, tworzenie alertów predykcyjnych i dostarczanie praktycznych informacji pozwalających zapobiegać oszustwom.
Analityka klientów
Analizy klientów w czasie rzeczywistym poprawiają ich zaangażowanie, utrzymanie i satysfakcję.
Każda organizacja potrzebuje analiz w czasie rzeczywistym w celu zwiększenia zaangażowania klientów, ale wdrożenie odpowiedniego rozwiązania jest dość trudne ze względu na przytłaczającą ilość danych. Rozwiązanie Cloudera Stream Processing umożliwia analitykę klientów dzięki przetwarzaniu ogromnych ilości danych z opóźnieniem poniżej sekundy, jednocześnie wykrywając interakcje klientów i rekomendując lepsze oferty w czasie rzeczywistym.
Monitorowanie rynku
Obsługuj miliony transakcji w ciągu sekundy i zapewnij skalowalność na poziomie petabajtów danych finansowych.
Giełdy finansowe stoją przed wyzwaniami związanymi z wymaganiami klientów w zakresie raportowania w czasie rzeczywistym i szybkości uwzględnionymi w SLA. Jednak do świadczenia tych usług konieczne jest przetwarzanie petabajtów danych. Rozwiązanie Cloudera Streams Messaging umożliwia łatwe przesyłanie strumieniowe dużych ilości danych, pozwalając giełdom szybko opracowywać oparte analizy rynkowe w czasie rzeczywistym i spełniać coraz bardziej wymagające warunki umów SLA.
Analityka logów
Zmodernizuj infrastrukturę logowania, aby zapewnić analitykę w czasie rzeczywistym.
Dane z logów mają coraz większą wartość dla przedsiębiorstw. Organizacje IT mają jednak trudności z zapewnieniem skutecznych procesów gromadzenia logów, dystrybucji odpowiednich informacji w górę strumienia i generowaniem kluczowych pomiarów. Rozwiązanie Cloudera Stream Processing pomaga skalować przetwarzanie logów, zapewnia wgląd w dane w czasie rzeczywistym w całej firmie i znacznie zmniejsza koszty operacyjne.
Możliwości przetwarzania strumieniowego
-
Streaming Analytics z wykorzystaniem technologii Apache Flink
-
Streams Messaging z wykorzystaniem technologii Apache Kafka
Analityka na strumieniu danych
Rozwiązanie Cloudera Streaming Analytics bazujące na technologii Apache Flink z SQL Stream Builder zapewnia następujące korzyści:
- Przetwarzanie strumienia danych z niskim opóźnieniem
- Uproszczenie programowania dzięki umożliwieniu użytkownikom pisania aplikacji do przesyłania strumieniowego z wykorzystaniem standardów branżowych SQL i API za pośrednictwem punktów końcowych REST
- Zaawansowane techniki okienkowania umożliwiające tworzenie złożonych analiz opartych na zdarzeniach
- Obsługa modeli chmur wielochmurowych i hybrydowych
SQL Stream Builder (SSB) to wszechstronny interaktywny interfejs użytkownika do tworzenia stanowych zadań przetwarzania strumieniowego za pomocą języka SQL, które są konwertowane na zoptymalizowane zadania Flink. Korzystając z języka SQL, można łatwo deklarować wyrażenia, które filtrują, agregują, kierują i na inne sposoby przekształcają strumienie danych. SSB to interfejs do zarządzania zadaniami pozwalający tworzyć i uruchamiać SQL w strumieniach, a także opracowywać trwałe interfejsy API do obsługi danych dotyczących wyników.
Korzystaj z możliwości przetwarzania danych dokładnie raz – każdorazowo, nawet w przypadku błędów i ponownych prób. Na przykład firma świadcząca usługi finansowe korzysta z przetwarzania strumieniowego do koordynowania setek systemów transakcyjnych zaplecza, gdy konsumenci spłacają swoje kredyty hipoteczne.
Wykrywaj i obsługuj zdarzenia transmisji strumieniowej, które nie występują w odpowiedniej kolejności. Na przykład oszukańcze usługi w czasie rzeczywistym wymagają przetwarzania danych we właściwej kolejności, nawet jeśli dane docierają z opóźnieniem.
Uzyskaj wydajność pozwalającą na przetwarzanie pojedynczych strumieni w pamięci. Możesz na przykład przetwarzać żądania 30 milionów aktywnych użytkowników płacących kartą kredytową, robiących przelewy i sprawdzających saldo z milisekundowym opóźnieniem.
Korzystaj z wyzwalania zdarzeń w przypadku obsługi setek źródeł danych przesyłanych strumieniowo i milionów zdarzeń na sekundę na strumień. Na przykład gdy pacjent zgłasza się na izbę przyjęć, system kontaktuje się z systemami zewnętrznymi, aby pobrać dane dotyczące tego pacjenta z setek źródeł. Dzięki temu dane są dostępne w bazie elektronicznej dokumentacji medycznej, zanim pacjent pojawi się w gabinecie.
Strumienie danych mają niewielką wartość, jeśli nie można ich łatwo integrować, łączyć i składać w siatkę z innymi źródłami danych w stanie spoczynku (np. hurtowniami danych, relacyjnymi bazami danych i jeziorami danych). Konfiguruj dostawców danych za pomocą gotowych łączników lub własnego łącznika z dowolnym źródłem danych. Po utworzeniu dostawców danych użytkownik może łatwo tworzyć wirtualne tabele przy użyciu języka definicji danych. Złożona integracja między wieloma strumieniami i wsadowymi źródłami danych staje się łatwiejsza dzięki dobrze znanym konstrukcjom SQL, takim jak łączenia i agregacje.
Streams Messaging
Rozwiązanie Cloudera Streams Messaging wykorzystujące technologię Apache Kafka zapewnia następujące korzyści i narzędzia:
- Streams Messaging Manager do monitorowania/obsługi klastrów
- Streams Replication Manager do obsługi wdrożeń HA/DR
- Schema Registry do centralnego zarządzania schematami
- Kafka Connect do prostego przenoszenia danych i przechwytywania zmian danych oraz Cruise Control do inteligentnego równoważenia i automatycznej naprawy
- Obsługa modeli chmur wielochmurowych i hybrydowych
Obsługuje miliony wiadomości na sekundę przy małych opóźnieniach i dużej przepustowości, zapewniając elastyczne i transparentne skalowanie bez przestojów. Obsługuje szeroki zakres inicjatyw związanych ze strumieniami danych, umożliwiając przedsiębiorstwom nadążanie za zapotrzebowaniem klientów, świadczenie lepszych usług i proaktywne zarządzanie ryzykiem.
Usługa Streams Messaging Manager zapewnia jednolity interfejs z kompleksowym wglądem w to, jak dane są przenoszone w klastrach Kafka – między producentami, brokerami, tematami i konsumentami – umożliwiając śledzenie pochodzenia danych i zarządzanie nimi od krawędzi po chmurę. Upraszcza również rozwiązywanie problemów ze środowiskami Kafka dzięki inteligentnemu filtrowaniu i sortowaniu.
Rozwiązanie Streams Replication Manager oparte na rozwiązaniu Mirrormaker 2 oferuje odporną na awarie, skalowalną i niezawodną replikację tematów Kafka między klastrami, a także monitorowanie i metryki replikacji na poziomie klastra i tematu. Zapewnia wysoką dostępność, odzyskiwanie po awarii, migracje do chmury, bliskość geograficzną i nie tylko.
Rejestr Schema Registry umożliwia zarządzanie, udostępnianie i obsługę ewolucji wszystkich schematów producentów i klientów we współużytkowanym repozytorium schematów, które umożliwia elastyczną interakcję w środowisku platformy Kafka. Bezpiecznie zapobiegaj występowaniu przerw spowodowanych niezgodnościami schematów.
Rozwiązanie Cruise Control umożliwia zarządzanie dużymi instalacjami Kafka i równoważenie ich obciążenia, a także automatyczne wykrywanie i usuwanie anomalii. Rozwiązuj trudne problemy, takich jak częste awarie sprzętu/maszyn wirtualnych, rozbudowa/redukcja klastra i przesunięcie obciążenia wśród brokerów.
Cloudera SDX oferuje scentralizowane zabezpieczenia, zasady kontroli, nadzór i pochodzenie danych we wszystkich komponentach. Są one ustawiane raz i automatycznie wymuszane, a do tego niezależne od dostawcy, dzięki czemu można śmiało stosować strategie z wykorzystaniem wielu chmur oraz chmur hybrydowych. Obsługuje cztery główne filary bezpieczeństwa: tożsamość, dostęp, ochronę danych i widoczność.
Dowolne dane w dowolnym miejscu i z elastycznymi opcjami wdrażania.
Przetwarzanie strumieniowe w chmurze
Cloudera oferuje kompletny zestaw zintegrowanych funkcji przetwarzania strumienia danych, które można wdrożyć w chmurze publicznej w celu wydajnego skalowania.
Cloudera Stream Processing opiera się na silnikach Apache Kafka i Apache Flink z narzędziami klasy korporacyjnej, które upraszczają wdrażanie i zarządzanie.
Streams Messaging Manager rozszerza Apache Kafka o zestaw funkcji umożliwiających zarządzanie schematami i monitorowanie, odzyskiwanie danych po awarii, inteligentne przywracanie równowagi oraz efektywną kontrolę dostępu i prowadzenie audytu.
SQL Stream Builder rozszerza Apache Flink o zaawansowaną konsolę SQL, która umożliwia analitykom SQL wykonywanie zapytań dotyczących danych przesyłanych strumieniowo, a także zapewnia współpracę i logikę przetwarzania kontroli wersji dla aplikacji podrzędnych.
Przetwarzanie strumieniowe wykonywane lokalnie
Cloudera może być wdrażana lokalnie z danymi strumieniowymi, aby kontrolować koszty i minimalizować opóźnienia w potokach danych i aplikacjach działających w czasie rzeczywistym. Cloudera Stream Processing integruje Apache Kafka i Apache Flink z narzędziami korporacyjnymi potrzebnymi do zarządzania tymi wdrożeniami.
Cloudera Streaming – Operatory Kubernetes
Funkcje Cloudera Stream Processing są również dostępne jako Operatory Kubernetes, które można wdrażać niezależnie za pośrednictwem istniejących klastrów Kubernetes, co jeszcze bardziej ułatwia wdrażanie i skalowanie platformy Kafka w firmie. Operator Kubernetes jest dostarczany z platformą Kafka, Cruise Control i Zookeeper.
Cloudera Stream Processing Community Edition
CSP Community Edition ułatwia tworzenie procesorów strumieniowych nawet bezpośrednio z poziomu komputera stacjonarnego lub dowolnego węzła programistycznego.
Analitycy, badacze danych i programiści mogą teraz wypróbować nowe funkcje, lokalnie opracowywać procesory strumieniowe oparte na SQL oraz opracowywać rozwiązania Kafka Consumers/Producers i łączniki Kafka Connect, a wszystko to lokalnie, przed przejściem na środowisko produkcyjne.
Rozpocznij pracę w 5 minut dzięki Stream Processing Community Edition
Zaczynamy?