Data science

Z Wikipedie, otevřené encyklopedie
Skočit na navigaci Skočit na vyhledávání

Data science neboli datová věda je interdisciplinární obor, který využívá vědecké metody, procesy, algoritmy a systémy pro získávání znalostí a poznatků z dat v různých podobách, jak strukturovaných, tak nestrukturovaných [1][2] podobně jako data mining.

Data science "sjednocuje statistiku, analýzu dat, strojové učení a související metody" s cílem "pochopit a analyzovat skutečné jevy" na základě dat.[3] Využívá techniky a teorie čerpané z mnoha oblastí matematiky, statistiky, informatiky a matematické informatiky.

Nositel Turingovy ceny Jim Gray si data science představoval jako „čtvrté paradigma“ vědy (empirické, teoretické, výpočetní a nyní založené na datech) a tvrdil, že „všechno ve vědě se mění v důsledku vlivu informačních technologií“ a záplavy dat.[4][5]

V roce 2012, kdy Harvard Business Review nazval data science "nejvíce sexy zaměstnáním 21. století" [6] se tento termín stal módním slovem. To je nyní často používáno zaměnitelně se staršími pojmy jako business analytics,[7] business intelligence, prediktivní modelování, data mining a statistika. Dokonce i myšlenka, že datová věda je sexy, parafrázuje Hanse Roslinga, který v dokumentu BBC 2011 prohlásil: "Statistika je nyní nejvíce sexy téma, které tu máme."[8] Nate Silver označil datovou vědu za sexy termín pro statistiku.[9] V mnoha případech jsou nyní dřívější přístupy a řešení jednoduše přejmenovávány jako data science, aby byly atraktivnější, což může způsobit, že termín se "zředí [...] za hranici užitečnosti".[10] I když mnohé univerzitní programy nyní nabízejí titul v oboru datové vědy, neexistuje konsensus o její definici nebo o obsahu učebních osnov.[7] K diskreditaci data science přispívá mnoho projektů v oblasti datové vědy a velkých dat, které nedokázaly poskytnout užitečné výsledky, často v důsledku špatného řízení a využívání zdrojů.[11][12][13][14]

Dějiny[editovat | editovat zdroj]

Termín datová věda se objevoval v různých souvislostech už desítky let, ale až donedávna se neustálil. Dříve byl používán jako synonymum informatiky Peterem Naurem v roce 1960. Naur později představil termín "datalogy".[15] V roce 1974 vydal Naur knihu Concise Survey of Computer Methods (Stručný přehled počítačových metod), kde volně využíval termín data science v přehledu současných metod zpracování dat používaných v široké škále aplikací.

V roce 1996 se členové Mezinárodní federace klasifikačních společností (Federation of Classification Societies, IFCS) sešli v Kóbe na konferenci konané každé dva roky. Zde se poprvé termín data science objevil v názvu konference (Data Science, classification, and related methods - Věda o datech, klasifikace a související metody).[16][17] poté, co byl zaveden v neformální diskusi Chikiem Hayashim. [3]

V listopadu 1997 přednesl C. F. Jeff Wu inaugurační přednášku nazvanou "Statistics = Data Science?"[18] u příležitosti jmenování profesorem Michiganské univerzity.[19] V přednášce charakterizoval statistickou práci jako trojici sběru dat, modelování či analýzy dat a rozhodování. Na závěr uvedl moderní použití termínu data science mimo kontext informatiky a navrhl přejmenování statistiky na data science a statistiků na data scientisty, datové vědce.[18] Později přednášku "Statistics = Data Science"? zopakoval roku 1998 jako první ze svých Mahalanobisovských přednášek.[20]

V roce 2001 William S. Cleveland uvedl datovou vědu jako nezávislou disciplínu, která rozšiřuje oblast statistiky tak, aby zahrnovala "pokroky v oblasti výpočetní techniky s daty". Myšlenku uveřejnil v článku "Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics" ("Data Science: akční plán rozšiřování technických oblastí statistiky"), který byl publikován ve svazku 69, č. 1, dubnového vydání International Statistical Review / Revue Internationale de Statistique z dubna 2001. [21] Cleveland zde stanovil šest oblastí, o kterých věřil, že zahrnují data science: multidisciplinární bádání, modely a metody pro zpracování dat, výpočty s daty, pedagogika, hodnocení výzkumných nástrojů a teorie.

V dubnu 2002 zahájila Mezinárodní rada pro vědu (International Council for Science, ICSU) a její Výbor pro data pro vědu a technologii (Committee on Data for Science and Technology, CODATA) [22] vydávání časopisu Data Science Journal [23] zaměřeného na otázky, jako je popis datových systémů, na internetu, aplikace a právní otázky.[24] Krátce poté, v lednu 2003, Columbijská univerzita začala publikovat časopis Journal of Data Science [25] který poskytl platformu všem datovým pracovníkům, aby prezentovali své názory a vyměňovali si nápady. Časopis byl z velké části věnován aplikaci statistických metod a kvantitativního výzkumu. Národní vědecká rada (National Science Board) vydala v roce 2005 text "Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century" ("Dlouhodobý sběr digitálních dat: umožnění výzkumu a vzdělávání v 21. století"), definující datové vědce jako "informační a počítačové vědce, databázové a softwarové tvůrce a programátory, experty jednotlivých disciplín, kurátory a odborní anotátory, knihovníky, archiváře a další, kteří mají zásadní význam pro úspěšné řízení sběru digitálních dat", jejichž hlavní činností je" provádět tvůrčí výzkum a analýzu".[26]

Okolo roku 2007 Jim Gray představil „vědu řízenou daty“ jako „čtvrté paradigma“ vědy, které využívá počítačovou analýzu velkých dat jako základní vědeckou metodu[4][5] a přál si „mít svět, v němž veškerá vědecká literatura je online a všechny vědecké údaje jsou online a vzájemně spolupracují."[27]

V článku z roku 2012 Harvard Business Review "Data Scientist: The Sexiest Job of the 21st Century" ("Data Scientist: Nejvíce sexy povolání 21. století" [6] DJ Patil tvrdí, že tento termín vytvořili v roce 2008 s Jeffem Hammerbacherem, aby definovali svou práci v LinkedIn a Facebooku. Tvrdí, že datový vědec je "nové plemeno" a že "nedostatek datových vědců se v některých sektorech stává vážným omezením" a popisuje mnohem více podnikatelsky orientované role.

V roce 2013 byla založena pracovní skupina IEEE pro data science a pokročilou analýzu (IEEE Task Force on Data Science and Advanced Analytics).[28] V roce 2013 byla v Lucembursku zorganizována první Evropská konference o data science (European Conference on Data Analysis ECDA), která zřídila Evropskou asociaci pro datovou vědu (EuADS). První mezinárodní konference IEEE International Conference on Data Science and Advanced Analytics se konala v roce 2014.[29] V tomtéž roce sekce American Statistical Association (Amerického statistického sdružení) věnovaná statistickému učení a data miningu přejmenovala svůj časopis na "Statistical Analysis and Data Mining: The ASA Data Science Journal" a v roce 2016 změnila svůj název na "Statistical Learning and Data Science".[30] V roce 2015 začalo nakladatelství Springer vydávat časopis International Journal on Data Science a Analytics[31] mající za úkol publikoval originální díla o datové vědě analýze velkých dat. V září 2015 přidala Gesellschaft für Klassifikation (GfKl) ke jménu společnosti "Data Science Society".

Vztah ke statistice[editovat | editovat zdroj]

Popularita pojmu "data science" v podnikatelském i akademickém prostředí prudce narostla, což ukazuje nárůst nabídek práce pro datové vědce.[32] Nicméně mnoho kritických akademických pracovníků a novinářů nevidí žádný rozdíl mezi datovou vědou a statistikou. Gil Press v časopise Forbes uvedl, že data science je "buzzword" bez jasné definice a jednoduše nahradil „obchodní analýzu“ v kontextech jako jsou postgraduální studijní programy.[7] V rámci otázek a odpovědi po své plenární přednášce na konferenci American Statistical Association aplikovaný statistik Nate Silver řekl: "Myslím, že datový vědec je sexy termín pro statistika. ... Statistika je odvětví vědy. Data scientist je lehce nadbytečný a lidé by neměli opouštět termín statistik."[9] Stejně tak v podnikatelském sektoru řada výzkumníků a analytiků uvádí, že samotní data scientisté zdaleka nestačí dát podnikům skutečnou konkurenční výhodu[33] a považují je za pouze jednu ze čtyř velkých skupin profesí potřebných k tomu, aby podniky efektivně využívaly velká data; jsou to analytici, data scientisté, vývojáři velkých dat a inženýři velkých dat.[34]

Na tuto kritiku přišla řada reakcí. V článku ve Wall Street Journal v roce 2014 Irving Wladawsky-Berger porovnává nadšení nad data science s úsvitem počítačové vědy. Argumentuje, že data science stejně jako jakákoli jiná interdisciplinární oblast využívá metodiky a praktiky z celé akademické i komerční sféry, ale pak je přetvoří do nové disciplíny. Uvádí ostré kritiky, kteří v minulosti útočili na informatiku, nyní uznávanou akademickou disciplínou.[35] Podobně Vasant Dhar z New York University stejně jako řada dalších akademických zastánců datové vědy[35] v prosinci 2013 konkrétněji argumentoval, že se data science liší od stávající praxe analýzy dat ve všech oborech, která se zaměřuje pouze na vysvětlení datových souborů. Data science hledá uplatnitelné a konzistentní pravidelnosti v datech vhodné prediktivní využití.[1] Tento praktický inženýrský cíl vyděluje datovou vědu mimo rámec tradiční analytiky. Nyní lze data hledat a využívat i v těch disciplínách a aplikovaných oborech, které nemají spolehlivé teorie, jako jsou zdravotnictví a společenské vědy, a mohly by zde být na základě těchto dat vytvořeny silné prediktivní modely.[1]

V podobném duchu se v září 2015 vyjádřil profesor ze Stanfordu David Donoho. Přitom odmítl tři zjednodušující a zavádějící definice data science, jež bývají předmětem kritiky.[36] Za prvé se podle Donoha datová věda nedá ztotožnit s velkými daty, neboť velikost datového souboru není kritériem pro rozlišování mezi datovou vědou a statistikou.[36] Za druhé datová věda není definována výpočetními schopnostmi zpracování velkých souborů dat, neboť tyto možnosti jsou již obecně používány pro analýzy ve všech oborech.[36] Za třetí datová věda je silně aplikovaný obor, v němž akademické programy v současné době dostatečně nepřipravují dorost, protože řada absolventských programů zavádějícím způsobem inzeruje svou analytickou a statistickou výuku jako podstatu kurikula pro datovou vědu.[36] [37] Donoho jakožto statistik spolu s mnoha kolegy jeho oboru podporuje rozšíření rozsahu učiva adeptů datové vědy.[36] Také John Chambers žádá statistiky, aby přijali inkluzivní koncepci učení z dat,[38] a William Cleveland požaduje, aby se upřednostňovalo vytváření predikcí nad vysvětlujícími teoriemi.[21] Společnou vizí těchto statistiků je stále obsáhlejší aplikovaný obor, které přerůstá hranice tradiční statistiky.

Budoucnost datové vědy vidí Donoho v neustále rostoucím prostředí otevřené vědy, kde jsou datové soubory využívané akademickými publikacemi přístupné všem výzkumníkům.[36] Americký národní zdravotní ústav již oznámil plány na zvýšení reprodukovatelnosti a průhlednosti výzkumných údajů.[39] Některé velké odborné časopisy již následují tento trend.[40] [41] Tímto způsobem budoucnost datové vědy nejen překračuje hranice statistické teorie co do rozsahu a metodologie, ale data science znamená výzvu současným akademickým a výzkumným paradigmatům.[36] Jak dodává Donoho, "rozsah a dopad datové vědy se v nadcházejících desetiletích bude nadále rozšiřovat, neboť vědecká data i data o samotné vědě se stanou všeobecně dostupnými".[36]

Reference[editovat | editovat zdroj]

V tomto článku byl použit překlad textu z článku Data science na anglické Wikipedii.

  1. a b c DHAR, V. Data science and prediction. Communications of the ACM. 2013, s. 64. Dostupné online. DOI:10.1145/2500499. (anglicky) 
  2. Dostupné online. 
  3. a b [s.l.]: [s.n.] Dostupné online. ISBN 9784431702085. DOI:10.1007/978-4-431-65950-1_3. 
  4. a b [s.l.]: [s.n.] Dostupné online. ISBN 978-0-9825442-0-4. 
  5. a b BELL, G.; HEY, T.; SZALAY, A. COMPUTER SCIENCE: Beyond the Data Deluge. Science. 2009, s. 1297–1298. ISSN 0036-8075. DOI:10.1126/science.1170411. (anglicky) 
  6. a b [s.l.]: [s.n.] (anglicky) 
  7. a b c Dostupné online. 
  8. www.nytimes.com. Dostupné online. 
  9. a b Dostupné online. 
  10. radar.oreilly.com. Dostupné online. 
  11. hbr.org. Dostupné online. 
  12. Dostupné online. 
  13. analytics-magazine.org. Dostupné online. 
  14. Dostupné online. 
  15. NAUR, Peter. The science of datalogy. Communications of the ACM. 1 July 1966, s. 485. DOI:10.1145/365719.366510. (anglicky) 
  16. Dostupné online. 
  17. Dostupné online. 
  18. a b Dostupné online. 
  19. Dostupné online. 
  20. Dostupné online. 
  21. a b Cleveland, WS (2001). Věda o údaji: akční plán pro rozšíření technických oblastí statistiky . Mezinárodní statistické hodnocení / Revue Internationale de Statistique, 21-26
  22. Mezinárodní rada pro vědu: Výbor pro údaje pro vědu a techniku. (2012, duben). CODATA, Výbor pro údaje o vědě a technice. Obdržel od Mezinárodní rady pro vědu: Výbor pro údaje o vědě a technice: http://www.codata.org/
  23. Data Science Journal. (2012, April). Available Volumes. Retrieved from Japan Science and Technology Information Aggregator, Electronic: http://www.jstage.jst.go.jp/browse/dsj/_vols April 2012/https://web.archive.org/web/20120403153707/http://www.jstage.jst.go.jp/browse/dsj/_vols Archivováno 3. 4. 2012 na Wayback Machine
  24. Data Science Journal. (2002, duben). Obsah svazku 1, vydání 1, duben 2002. Získaný z japonského vědeckotechnologického informačního agregátoru, elektronický: http://www.jstage.jst.go.jp/browse/dsj/1/0/_contents
  25. Časopis vědy o datech. (2003, leden). Obsah svazku 1, vydání 1, leden 2003. Citováno z http://www.jds-online.com/v1-1
  26. Dostupné online. 
  27. www.nytimes.com. Dostupné online. ISSN 0362-4331. 
  28. Dostupné online. 
  29. Dostupné online. 
  30. Dostupné online. 
  31. Dostupné online. 
  32. fortune.com. Dostupné online. 
  33. MILLER, Steven. Collaborative Approaches Needed to Close the Big Data Skills Gap. Journal of Organization Design. 2014-04-10, s. 26–30. Dostupné online. ISSN 2245-408X. DOI:10.7146/jod.9823. (anglicky) 
  34. DE MAURO, Andrea; GRECO, Marco; GRIMALDI, Michele; RITALA, Paavo. Human resources for Big Data professions: A systematic classification of job roles and required skill sets. Information Processing & Management. Dostupné online. DOI:10.1016/j.ipm.2017.05.004. (anglicky) 
  35. a b blogs.wsj.com. Dostupné online. 
  36. a b c d e f g h DONOHO, David. 50 Years of Data Science. Based on a talk at Tukey Centennial workshop, Princeton NJ Sept 18 2015. September 2015. Dostupné online. (anglicky) 
  37. [s.l.]: [s.n.] 
  38. CHAMBERS, John M. Greater or lesser statistics: a choice for future research. Statistics and Computing. 1993-12-01, s. 182–184. Dostupné online. ISSN 0960-3174. DOI:10.1007/BF00141776. (anglicky) 
  39. COLLINS, Francis S.; TABAK, Lawrence A. NIH plans to enhance reproducibility. Nature. 2014-01-30, s. 612–613. ISSN 0028-0836. DOI:10.1038/505612a. PMID 24482835. (anglicky) 
  40. MCNUTT, Marcia. Reproducibility. Science. 2014-01-17, s. 229–229. Dostupné online. ISSN 0036-8075. DOI:10.1126/science.1250475. PMID 24436391. (anglicky) 
  41. PENG, Roger D. Reproducible research and Biostatistics. Biostatistics. 2009-07-01, s. 405–408. Dostupné online. ISSN 1465-4644. DOI:10.1093/biostatistics/kxp014. (anglicky)