Velká data

Vizualizace dat vytvořená firmou IBM. Jde o data ukazující editační aktivity jednoho z robotů Wikipedie. Data Wikipedie jsou svým rozsahem, nestrukturovaností informací a variabilitou dat vhodným příkladem pro big data.

Velká data (anglicky big data, česky někdy veledata) jsou podle jedné z možných definic soubory dat, jejichž velikost je mimo schopnosti zachycovat, spravovat a zpracovávat data běžně používanými softwarovými prostředky v rozumném čase.^[1] Často bývá v textech na dané téma používáno i v češtině přímo big data jako pojem označující technickou kategorii, tedy bez překladu.

Big data a datové sklady[editovat | editovat zdroj]

Velké objemy dat jsou nyní (2013) obvykle ukládány v datových skladech. Do datových skladů jsou ukládány z různých zdrojů a existujících informačních systémů pomocí procedur ETL. Většinou jde již o data ve strukturované podobě. Data jsou do datového skladu přenášena v předem daných cyklech a následně je nad nimi provedena analýza již připravenými algoritmy. Dalším běžným způsobem je provádění dalších analýz a výpočtů na vyžádání.^[1] Obvykle se v datových skladech pracuje s daty o objemu terabytů.^[1]

Na rozdíl od toho se v big datech hovoří o objemech dat v petabytech.^[2] Petabyte je 1 000 000 000 000 000 bytů, tedy 10¹⁵ bytů. Jde tedy o objemy o tři řády větší. Problematikou zpracování velkých objemů dat zabývají například i VLDB a XLDB.

Kategorie big data nelze zjednodušit na prosté zvětšení nároků na zpracování většího objemu dat. Jde i o jejich další charakteristiky. V literatuře je používán pojem 3V z počátečních písmen anglických slov volume, velocity a variety charakterizujících big data.^[1] Některé zdroje přidávají i čtvrté V pro veracity.^[3]

volume (objem): Objem dat narůstá exponenciálně.
velocity (rychlost): Objevují se úlohy vyžadující okamžité zpracování velkého objemu průběžně vznikajících dat. Vhodným příkladem může být zpracování dat produkovaných kamerou.
variety (různorodost, variabilita): Kromě obvyklých strukturovaných dat jde o úlohy pro zpracování nestrukturovaných textů, ale i různých typů multimediálních dat.
veracity (věrohodnost): Nejistá věrohodnost dat v důsledku jejich inkonzistence, neúplnosti, nejasnosti a podobně. Vhodným příkladem mohou být údaje čerpané z komunikace na sociálních sítích.

Nástroje pro big data[editovat | editovat zdroj]

Známým nástrojem pro zpracování big dat je Hadoop.^[1] Nejde ale o nástroj řešící problematiku big dat úplně. Jde jen o jeden z nástrojů pro big data a navíc jde o opensourceový software, což může být pro některé zákazníky problematické. Proto více IT firem, které dodávají nástroje a řešení pro big data používá sice Hadoop, ale jen jako základ pro některý z jimi dodávaných nástrojů pro zpracování big dat.

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

↑ ^a ^b ^c ^d ^e DOLÁK, Ondřej. Big data, Nové způsoby zpracování a analýzy velkých objemů dat [online]. 2011 [cit. 2013-01-03]. Dostupné online.
↑ LYNCH, Clifford. Big data: How do your data grow? [online]. 2008-08-03 [cit. 2013-01-03]. Dostupné online.
↑ CLAVERIE-BERGE, Isabelle. Solutions Big Data IBM [online]. 2012-03-13 [cit. 2013-01-03]. Dostupné v archivu pořízeném dne 2014-04-26.

Literatura[editovat | editovat zdroj]

MAYER-SCHÖNBERGER, Viktor; CUKIER, Kenneth. Big Data : Revoluce, která změní způsob, jak žijeme, pracujeme a myslíme. Překlad Jakub Goner. 1. vyd. Brno: Computer Press, 2014. 256 s. ISBN 978-80-251-4119-9.

Související články[editovat | editovat zdroj]

Externí odkazy[editovat | editovat zdroj]

Obrázky, zvuky či videa k tématu big data na Wikimedia Commons
Apache Foundation Official website (anglicky)
Clouds, big data, and smart assets: Ten tech-enabled business trends to watch Archivováno 16. 12. 2011 na Wayback Machine. (anglicky)
Real Time Data Access and Total Data Integration (anglicky)

[sol-1] DOLÁK, Ondřej. Big data, Nové způsoby zpracování a analýzy velkých objemů dat [online]. 2011 [cit. 2013-01-03]. Dostupné online.

[nature-2] LYNCH, Clifford. Big data: How do your data grow? [online]. 2008-08-03 [cit. 2013-01-03]. Dostupné online.

[IBM-3] CLAVERIE-BERGE, Isabelle. Solutions Big Data IBM [online]. 2012-03-13 [cit. 2013-01-03]. Dostupné v archivu pořízeném dne 2014-04-26.

[1]

[2]

[3]