Apache Hadoop
| Vývojář | Apache Software Foundation |
|---|---|
| Operační systém | Multiplatformní software |
| Licence | Apache License 2.0 |
| Web | Hadoop Apache |
Hadoop je framework obsahující sadu open-source softwarových komponent určených pro zpracování velkého množství nestrukturovaných a distribuovaných dat v řádech petabytů a exabytů..[1]
Obsah |
Principy Hadoop [editovat]
Podstata spočívá v uložení dat na velkém množství samostatných počítačů. [2]) Může jít o běžný hardware a tak je uložení těchto dat levnější než ukládání na specializovaném hardware s vysokou dostupností. Pro uložení je potom použit distribuovaný souborový systém. Jeden takový systém nabízí přímo Hadoop. Je to systém HDFS, což je zkratka z anglického názvu Hadoop Distributed File System. [2] Zpracování potom probíhá tak, že je úloha rozdělena a zpracovávána paralelně na více uzlech. Jde tedy vlastně o distribuovaný výpočet. Konečný výsledek je zjištěn výpočtem z dílčích výsledků. Jde o tak zvaný princip MapReduce, kde Map je rozdělení úlohy a Reduce je spojení výsledků. Samotný výpočet je tak posunut z velké části k datům, čímž je značně redukována potřeba přenosu velkých objemů dat po síti.
Vývoj Hadoop a jeho derivátů [editovat]
Hadoop je rozvíjen v rámci open source software. V jeho vývoji se angažuje organizace Apache Software Foundation. [3] Volné komponenty Hadoop jsou dostupné na stránkách hadoop.apache.org. Na bázi Hadoop jsou postavena mnohá komerčně dodávaná řešení [4] pro big data.
Apache Hadoop [editovat]
Aktuální verze Hadoop (2012) pracuje na 4000 uzlech clusterů. Nová verze, která je v zatím v alfa stádiu, by měla být vydána do konce roku a přináší rozšíření na 6000 uzlů. Pro uzel se počítá 16 (a více) jader a 10000 paralelních úkolů. V nové verzi je vylepšen HDFS (Hadoop Distributed File System [5]). MapReduce, což je modul řešící distribuované zpracování,[6] byl vylepšen a přepsán na verzi Yarn a slibuje zdvojnásobení propustnosti dat ve velkých skupinách. [3] Pro novou verzi je také plánována kompatibilita s protokolem Wire.
Významní uživatelé [editovat]
Reference [7]
- Amazon.com
- Akamai
- American Airlines
- AOL
- Apple[8]
- eBay
- Federal Reserve Board of Governors
- foursquare
- Fox Interactive Media
- Gemvara
- Hewlett-Packard
- IBM
- ImageShack
- ISI
- Intuit
- Joost
- Last.fm
- LinkedIn[9]
- Microsoft[10]
- NetApp
- Netflix[11]
- Riot Games
- Risk Management Solutions (RMS)
- The New York Times
- The Walt Disney Company
- SAP AG[12]
- SAS Institute[13]
- StumbleUpon[14]
- Yahoo!
- Yodlee
Odkazy [editovat]
Reference [editovat]
- ↑ DOLÁK, Ondřej. Big data [online]. [cit. 2012-11-30]. Dostupné online. (anglicky)
- ↑ a b Web hadoop.appache.org
- ↑ a b ŠVERÁK, Petr. Apache vydává novou verzi Hadoop [online]. 3.3.2012, [cit. 2012-11-30]. Dostupné online. (anglicky)
- ↑ InfoSphere BigInsights (Bringing the power of Hadoop to the enterprise)
- ↑ HDFS User Guide
- ↑ The Hadoop Distributed File System: Architecture and Design
- ↑ Applikace a organizace používající Hadoop
- ↑ Apple Embraces Hadoop [online]. [cit. 2011-04-14]. Dostupné online. (anglicky)
- ↑ Building a terabyte-scale data cycle at LinkedIn with Hadoop and Project Voldemort [online]. [cit. 2011-04-14]. Dostupné online. (anglicky)
- ↑ Microsoft Expands Data Platform With SQL Server 2012, New Investments for Managing Any Data, Any Size, Anywhere [online]. [cit. 2011-10-13]. Dostupné online. (anglicky)
- ↑ Use Case Study of Hive/Hadoop [online]. [cit. 2011-04-14]. Dostupné online. (anglicky)
- ↑ SAP UNVEILS UNIFIED STRATEGY FOR REAL-TIME DATA MANAGEMENT TO GROW DATABASE MARKET LEADERSHIP [online]. SAP America, [cit. 2012-06-09]. Dostupné online. (anglicky)
- ↑ SAS® access to Hadoop links leading analytics, big data [online]. . Dostupné online. (anglicky)
- ↑ HBase at StumbleUpon [online]. [cit. 2010-06-26]. Dostupné online. (anglicky)
Literatura [editovat]
- White, T.: Hadoop: The Definitive Guide, O'Reilly Media, Incorporated, 2009, ISBN 9780596521974
- Lam, Ch.: Hadoop in Action, O'Reilly Media, 2010, ISBN 1935182196, 9781935182191, 312 stran