Inne bazy danych
Hadoop. Kompletny przewodnik. Analiza i przechowywanie danych
- Szczegóły
- Kategoria: Inne bazy danych
Analiza danych z Hadoopem - i wszystko staje się prostsze!
Podstawy Hadoopa i model MapReduce.
Praca z Hadoopem, budowa klastra i zarządzanie platformą.
Dodatki zwiększające funkcjonalność Hadoopa.
Platforma Apache Hadoop to jedno z zaawansowanych narzędzi informatycznych. Dzięki niej można przeprowadzać różne operacje na dużych ilościach danych i znacznie skrócić czas wykonywania tych działań.
Wszędzie tam, gdzie potrzebne jest szybkie sortowanie, obliczanie i archiwizowanie danych - np. w dużych międzynarodowych sklepach internetowych, serwisach społecznościowych lub wyszukiwarkach, takich jak Amazon, Facebook, Yahoo!, Apache Hadoop sprawdza się znakomicie. Jeśli potrzebne Ci narzędzie do poważnej analizy dużych zbiorów danych, nie znajdziesz lepszego rozwiązania!
Tę książkę napisał wytrawny znawca i współtwórca Hadoopa. Przedstawia w niej wszystkie istotne mechanizmy działania platformy i pokazuje, jak efektywnie jej używać. Dowiesz się stąd, do czego służą model MapReduce oraz systemy HDFS i YARN. Nauczysz się budować aplikacje oraz klastry. Poznasz dwa formaty danych, a także wykorzystasz narzędzia do ich pobierania i transferu. Sprawdzisz, jak wysokopoziomowe narzędzia do przetwarzania danych współdziałają z Hadoopem. Zorientujesz się, jak działa rozproszona baza danych i jak zarządzać konfiguracją w środowisku rozproszonym. Przeczytasz również o nowinkach w Hadoopie 2 i prześledzisz studia przypadków ilustrujące rolę Hadoopa w systemach służby zdrowia i przy przetwarzaniu danych o genomie.
- Hadoop i model MapReduce
- Systemy HDFS i YARN
- Operacje wejścia - wyjścia w platformie Hadoop
- Typy, formaty, funkcje i budowa aplikacji w modelu MapReduce
- Zarządzanie platformą Hadoop
- Avro, Parquet, Flume i Sqoop - metody pracy z danymi
- Pig, Hive, Crunch i Spark - wysokopoziomowe narzędzia do przetwarzania danych
- HBase i ZooKeeper - praca w środowisku rozproszonym
- Integrowanie danych w firmie Cerner
- Nauka o danych biologicznych
- Cascading
Hadoop - rozwiązanie na miarę wyzwań globalnych!
Tom White - jeden z czołowych ekspertów w zakresie obsługi platformy Hadoop. Członek organizacji Apache Software Foundation, inżynier oprogramowania w firmie Cloudera.
- Zarządzanie danymi w zbiorach o dużej skali. Nowoczesna architektura z siatką danych i technologią Data Fabric. Wydanie II - [21 maj 2024]
- Jak analizować dane z biblioteką Pandas. Praktyczne wprowadzenie. Wydanie II - [17 styczeń 2024]
- Microsoft Power BI dla zaawansowanych. Eksperckie techniki tworzenia interaktywnych analiz w świecie biznesu. Wydanie II - [03 październik 2023]
- Microsoft Power BI. Jak modelować i wizualizować dane oraz budować narracje cyfrowe. Wydanie III - [25 sierpień 2023]
- Poznaj Tableau 2022. Wizualizacja danych, interaktywna analiza danych i umiejętność data storytellingu. Wydanie V - [12 lipiec 2023]