Apache Hadoop — bliższe spojrzenie
Apache Hadoop oferuje rozwiązania do gromadzenia i przetwarzania danych na dużą skalę. ASF służy jako centralne repozytorium i punkt dystrybucji projektów, a Apache służy jako podstawowa społeczność użytkowników i programistów. Apache Hadoop ma na celu ułatwienie wdrażania dużych aplikacji poprzez obsługę platformy Java i Java na serwerach. Apache Hadoop został opracowany przez Juhan Lamb Pedrick, Alex Balcov, Michael J. Cafarella, Gerald M. Glassner i Raymond C. Tsouline. Opiera się na technologii systemu zarządzania bazami danych NoSQL, który został najpierw opracowany na Facebooku, a później używany przez Twittera i Google.
Apache Hadoop obejmuje szeroką gamę technologii, w tym Map-Reduce, Yago, Summation i wiele innych. Apache Hadoop rozwijał się, aby platforma Map-Reduce była bardziej efektywna i prostsza w użyciu, zapewniając jednocześnie intuicyjny interfejs użytkownika dla programistów. Apache Hadoop ma na celu skalowanie z tradycyjnych instalacji serwerowych do w pełni równoległego systemu rozproszonego, wykonującego równolegle tysiące zadań. Jest w stanie obsłużyć duże ilości zadań wymagających dużej ilości danych, umożliwiając każdemu pracownikowi dzielenie pracy na małe części, dzięki czemu duże zadania mogą być efektywnie dzielone przez bazowy klaster.
Analiza danych rozproszonych Za pomocą Apache Hadoop użytkownicy mogą uzyskiwać dostęp do danych w czasie rzeczywistym z dowolnego urządzenia, bez konieczności stosowania drogich systemów rozproszonych lub nośników pamięci. Apache Hadoop oferuje wysoce skalowalne i wysoce wydajne technologie hurtowni danych i przetwarzania danych. Platforma Map Reduce pozwala użytkownikom skutecznie zmniejszyć złożoność Map, umożliwiając tworzenie bardziej złożonych wykresów i aplikacji Business Intelligence (BI). Użytkownicy mogą również budować proste aplikacje Extract-Transform-Load (ETL), które pozwalają programom obsługi ETL wydajnie obsługiwać złożone przekształcenia.