Apache Hadoop

Z Wikipedie, otevřené encyklopedie
Skočit na: Navigace, Hledání
Apache Hadoop
Logo
Vývojář Apache Software Foundation
Aktuální verze 2.7.3 (25. srpen 2016)
Připravovaná verze 3.0.0
Operační systém Multiplatformní software
Vyvíjeno v Java
Licence Apache License 2.0
Web Hadoop Apache
Video o Hadoop(anglicky)

Hadoop je framework obsahující sadu opensource softwarových komponent určených pro zpracování velkého množství nestrukturovaných a distribuovaných dat v řádech petabytů a exabytů.[1]

Principy Hadoopu[editovat | editovat zdroj]

Podstata spočívá v uložení dat na velkém množství samostatných počítačů.[2] Může jít o běžný hardware a tak je uložení těchto dat levnější než ukládání na specializovaném hardwaru s vysokou dostupností. Pro uložení je potom použit distribuovaný souborový systém. Jeden takový systém nabízí přímo Hadoop. Je to systém HDFS, což je zkratka z anglického názvu Hadoop Distributed File System.[2] Zpracování potom probíhá tak, že je úloha rozdělena a zpracovávána paralelně na více uzlech. Jde tedy vlastně o distribuovaný výpočet. Konečný výsledek je zjištěn výpočtem z dílčích výsledků. Jde o tak zvaný princip MapReduce, kde Map je rozdělení úlohy a Reduce je spojení výsledků. Samotný výpočet je tak posunut z velké části k datům, čímž je značně redukována potřeba přenosu velkých objemů dat po síti.

Vývoj Hadoopu a jeho derivátů[editovat | editovat zdroj]

Hadoop je rozvíjen v rámci opensource softwaru. V jeho vývoji se angažuje organizace Apache Software Foundation. [3] Volné komponenty Hadoopu jsou dostupné na stránkách hadoop.apache.org. Na bázi Hadoopu jsou postavena mnohá komerčně dodávaná řešení [4] pro big data.

Apache Hadoop[editovat | editovat zdroj]

Aktuální verze Hadoopu v roce 2012 mohla pracovat na 4000 uzlech clusterů. Pro uzel se počítalo 16 (a více) jader a 10000 paralelních úkolů.

Vydání významných verzí[editovat | editovat zdroj]

  • 22. březen 2017: Release 2.8.0. Pro produkční nasazení je doporučeno počkat na verze 2.8.1/2.8.2
  • 25. leden 2017: Release 3.0.0-alpha2
  • 8. říjen 2016: Release 2.6.5
  • 25. srpen 2016: Release 2.7.3
  • 21. duben 2015: Release 2.7.0 (nejde o stabilní verzi pro produkční nasazení)
  • 18. listopad 2014: Release 2.6.0 (nejde o stabilní verzi pro produkční nasazení)
  • 15. říjen 2013: Release 2.2.0 release s tzv. General availability obsahující významná rozšíření:
    • YARN - systém řízení zdrojů pro Hadoop
    • High Availability (Vysoká dostupnost) pro HDFS
    • HDFS Federation
    • HDFS Snapshots
    • NFSv3 přístup k datům v HDFS
    • Podporu pro provoz Hadoop na Microsoft Windows
    • Binární kompatibilitu pro aplikace MapReduce postavené na hadoop-1.x

Významní uživatelé[editovat | editovat zdroj]

Reference [5]

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

  1. DOLÁK, Ondřej. Big data [online]. [cit. 2012-11-30]. [1]. (anglicky) 
  2. a b Web hadoop.appache.org
  3. ŠVERÁK, Petr. Apache vydává novou verzi Hadoop [online]. 3.3.2012, [cit. 2012-11-30]. [2]. (anglicky) 
  4. InfoSphere BigInsights (Bringing the power of Hadoop to the enterprise)
  5. Applikace a organizace používající Hadoop
  6. Apple Embraces Hadoop [online]. [cit. 2011-04-14]. [3]. (anglicky) 
  7. Building a terabyte-scale data cycle at LinkedIn with Hadoop and Project Voldemort [online]. [cit. 2011-04-14]. [4]. (anglicky) 
  8. Microsoft Expands Data Platform With SQL Server 2012, New Investments for Managing Any Data, Any Size, Anywhere [online]. [cit. 2011-10-13]. [5]. (anglicky) 
  9. Use Case Study of Hive/Hadoop [online]. [cit. 2011-04-14]. [6]. (anglicky) 
  10. SAP UNVEILS UNIFIED STRATEGY FOR REAL-TIME DATA MANAGEMENT TO GROW DATABASE MARKET LEADERSHIP [online]. SAP America, [cit. 2012-06-09]. [7]. (anglicky) 
  11. SAS® access to Hadoop links leading analytics, big data [online]. . [8]. (anglicky) 
  12. HBase at StumbleUpon [online]. [cit. 2010-06-26]. [9]. (anglicky) 

[1]Literatura[editovat | editovat zdroj]

  • White, T.: Hadoop: The Definitive Guide, O'Reilly Media, Incorporated, 2009, ISBN 9780596521974
  • Lam, Ch.: Hadoop in Action, O'Reilly Media, 2010, ISBN 1935182196, 9781935182191, 312 stran

Související články[editovat | editovat zdroj]

Externí odkazy[editovat | editovat zdroj]

  1. STRANSKY, Jakub. Hadoop IO and file formats [online]. 2014-06-22, [cit. 2016-11-04]. Dostupné online.