Inne bazy danych
Spark. Zaawansowana analiza danych
- Szczegóły
- Kategoria: Inne bazy danych
Analiza ogromnych zbiorów danych nie musi być wolna!
Apache Spark to darmowy, zaawansowany szkielet i silnik pozwalający na szybkie przetwarzanie oraz analizę ogromnych zbiorów danych. Prace nad tym projektem rozpoczęły się w 2009 roku, a już rok później Spark został udostępniony użytkownikom. Jeżeli potrzebujesz najwyższej wydajności w przetwarzaniu informacji, jeżeli chcesz uzyskiwać odpowiedź na trudne pytania niemalże w czasie rzeczywistym, Spark może być odpowiedzią na Twoje oczekiwania.
Sięgnij po tę książkę i przekonaj się, czy tak jest w rzeczywistości. Autor porusza tu zaawansowane kwestie związane z analizą statystyczną danych, wykrywaniem anomalii oraz analizą obrazów. Jednak zanim przejdziesz do tych tematów, zapoznasz się z podstawami - wprowadzeniem do analizy danych za pomocą języka Scala oraz Apache Spark.
Nauczysz się też przeprowadzać analizę semantyczną i zobaczysz, jak w praktyce przeprowadzić analizę sieci współwystępowań za pomocą biblioteki GraphX.
Na koniec dowiesz się, jak przetwarzać dane geoprzestrzenne i genomiczne, a także oszacujesz ryzyko metodą symulacji Monte Carlo. Książka ta pozwoli Ci na wykorzystanie potencjału Apache Spark i zaprzęgnięcie go do najtrudniejszych zadań!
Przykłady prezetnowane w książce obejmują:
- Rekomendowanie muzyki i dane Audioscrobbler
- Prognozowanie zalesienia za pomocą drzewa decyzyjnego
- Wykrywanie anomalii w ruchu sieciowym metodą grupowania według k-średnich
- Wikipedia i ukryta analiza semantyczna
- Analiza sieci współwystępowań za pomocą biblioteki GraphX
- Geoprzestrzenna i temporalna analiza tras nowojorskich taksówek
- Szacowanie ryzyka finansowego metodą symulacji Monte Carlo
- Analiza danych genomicznych i projekt BDG
- Analiza danych neuroobrazowych za pomocą pakietów PySpark i Thunder
Poznaj potencjał i wydajność Apache Spark!
- Zarządzanie danymi w zbiorach o dużej skali. Nowoczesna architektura z siatką danych i technologią Data Fabric. Wydanie II - [21 maj 2024]
- Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II - [17 styczeń 2024]
- Microsoft Power BI dla zaawansowanych. Eksperckie techniki tworzenia interaktywnych analiz w świecie biznesu. Wydanie II - [03 październik 2023]
- Microsoft Power BI. Jak modelować i wizualizować dane oraz budować narracje cyfrowe. Wydanie III - [25 sierpień 2023]
- Poznaj Tableau 2022. Wizualizacja danych, interaktywna analiza danych i umiejętność data storytellingu. Wydanie V - [12 lipiec 2023]