Publikování výzkumných dat

Z Wikipedie, otevřené encyklopedie

Publikování výzkumných dat je proces zveřejnění dat z výzkumu, která jsou posléze přístupná širší veřejnosti pro jejich další užívání. Publikování výzkumných dat je součástí otevřeného přístupu k vědeckým informacím (anglicky Open Access) a celkově otevřené vědy (anglicky Open Science).[1]

Dostupnost vědeckých výzkumných dat je pro společnost velmi významná a také je svým způsobem očekávána, protože věda je financována státem z veřejných prostředků (daní). Výzkumná data jsou rovněž shromažďována pro veřejné blaho (veřejné zdraví, bezpečnost výrobků, apod.).[2]

Základním cílem publikování dat je jejich opětovné použití a zároveň umožnění reprodukování výzkumu. Sdílení dat snižuje náklady a urychluje výzkum. Úschova a publikování dat je sice také náročné, ale méně než opětovný sběr dat. Publikování dat může v některých případech pomoci odhalit podvody (např. když si někdo data k výzkumu vymyslí).[1]

Důležitý je také formát, ve kterém budou data zveřejněna (určité datové repozitáře podporují pouze některé formáty dat), a splnění etických zásad publikování. Jednou z nich je anonymizace dat. [3] Každý, kdo sdílená data využije, by je měl řádně citovat. Zároveň by tato data měla být trvale dostupná.[1]

Data v repozitáři by měla být propojena s příslušným vědeckým článkem nebo jinou publikací výzkumníka. Na druhou stranu by mělo být v této publikaci na výzkumná data odkázáno. Jedním z možných řešení je uvedení perzistentního identifikátoru (např. DOI nebo Handle). [3]

Do publikování dat vstupují tito tři aktéři - výzkumníci, vydavatelé a úložiště dat.[4] Publikování dat je blízce spjato s pojmy sdílení dat a otevřená data.[1]

Jaká výzkumná data publikovat[editovat | editovat zdroj]

Při publikování výzkumných dat by se mělo vždy dbát na to, aby byla sdílena všechna data, která jsou potřeba k replikaci výzkumné práce. Samozřejmě je ale nutné brát ohled na všechny etické a právní aspekty, které se zpřístupnění dat týkají.[5]Nejčastěji jsou publikována data, která slouží jako podklad k příslušným vědeckým článkům, ale je možné sdílet i samotné datové sady bez žádného propojení s publikací.

Může se jednat o tabulky, dokumenty, audio a video nahrávky, obrázky, fotografie, dotazníky, přepisy rozhovorů, software, skripty, laboratorní deníky, terénní poznámky, diáře atd.[6]

Pokud jsou data publikována způsobem, kde budou online volně dostupná komukoli a bude možné je dále využívat a sdílet, měla by se řídit pravidlem "As open as possible, as closed as necessary" (co nejvíce otevřená, uzavřená dle potřeby).[5] Snahou by mělo být zpřístupnit co nejvíce dat, ale zároveň dbát na to. že některá data by zveřejněna být neměla (osobní údaje, citlivé údaje, zdravotní dokumentace apod.).[7]

Způsoby publikování[editovat | editovat zdroj]

Existují různé metody, jak vědecká data publikovat. Jedním ze způsobů jsou tzv. supplementary materials, které jsou připojené k vědeckému článku.[8] Další možností je publikovat data v datových repozitářích, které jsou přímo určené k ukládání tohoto typu dat. Kromě repozitářů je možné využít také datové časopisy, v rámci kterých se publikují datové články.[9]

Supplementary materials[editovat | editovat zdroj]

První možností, jak publikovat vědecká data, jsou supplementary materials (česky „doplňující materiály"). Každý nakladatel si stanovuje, které typy dat budou přijaty a za jakých podmínek budou zveřejněny. IOP Publishing např. uvádí, že mezi supplementary materials patří tabulky, programovací kódy, multimédia nebo primární datasety.[10] Pokud nakladatel tuto možnost nabízí, publikuje následně zvolené podklady online a propojí je s článkem.[9]

Nevýhodou tohoto způsobu je, že vydavatel může získat majetková práva na článek a čtenáři nemohou dále využít publikovaná data a citovat je nezávisle na publikaci.[9]

Kromě termínu "supplementary materials" se objevuje také použití výrazu "supplemental materials". To ale odkazuje na uložení dat souvisejících s článkem v externím datovém repozitáři a následné propojení s příslušným článkem. [8]

Datové repozitáře[editovat | editovat zdroj]

Dalším způsobem, jak uložit data, jsou datové repozitáře (anglicky data repositories). Jedná se o prostor, kde mohou vědci uchovávat svá data spojená s výzkumem.[3] V současné době existuje velký počet datových repozitářů. Prvním typem jsou oborové repozitáře, jejichž výhoda spočívá ve sdružování dat vědců z konkrétního vědního oboru na jednom místě. Oborové repozitáře se rovněž mohou lépe přizpůsobovat potřebám daného oboru.[9] Příkladem může být Český národní korpus provozovaný Ústavem Českého národního korpusu při Filozofické fakultě UK v Praze.[11]

Pro vyhledávání vhodných oborových repozitářů je možné využít mezinárodní registr datových repozitářů re3data.org (Registry of Research Data Repositories).[9] Dalším nástrojem je FAIRsharing.[3]

Druhým typem jsou obecné repozitáře, které lze využít pro ukládání dat bez ohledu na konkrétní obor. Mezi tento typ repozitářů se řadí například Dryad, Figshare, Zenodo,[4] Mendeley Data nebo Science Data Bank.[3]

Třetím typem jsou institucionální repozitáře, které slouží potřebám jednotlivých institucí. Příkladem z této kategorie je multidisciplinární repozitář ASEP.[12]

Datové repozitáře mají různé vlastnosti a jsou v nich zahrnuty odlišné nástroje. Jedním z nich je přiřazení persistentního identifikátoru k datasetu, například Digital Object Identifier (DOI)[3] nebo Handle[13]. Další vlastnosti mohou zahrnovat poskytování otevřeného přístupu k datům, možnost opatřit data licencí nebo možnost verzování datasetu.[9]

Zenodo[editovat | editovat zdroj]

Zenodo (jméno je odvozeno od Zénodota, prvního knihovníka Alexandrijské knihovny) je obecný online datový repozitář, který byl vyvinut v roce 2013 v rámci projektu Evropské komise OpenAIREplus a je provozován a hostován společností CERN. Umožňuje výzkumným pracovníkům sdílet své publikace a data a ulehčuje tak otevřenou spolupráci.[14] Zenodo pokrývá všechny oblasti výzkumu a všechny typy výzkumných artefaktů.[15]

Tento repozitář umožňuje ukládání všech typů dat do 50 GB[16] a automaticky přiřazuje ke všem veřejně přístupným datům DOI identifikátor, aby je bylo možné citovat. Vědci jsou podporováni ke sdílení dat veřejně pod licencemi Creative Commons, ale repozitář umožňuje rovněž vytvoření i jiných druhů licencí.[14] Anonymizovaná citlivá data (například klinická data) je v repozitáři Zenodo možno skrýt a sdílet pouze s vybranými osobami skrze omezený přístup. Repozitář zahrnuje rovněž nástroj pro verzování a propojení s webovou službou GitHub.[17]

Významným aspektem Zenoda je možnost vytváření archivů v rámci komunit, kde uživatelé sami spravují obsah jejich komunity a určují si podmínky přijetí a zveřejnění dat. Vytváří se tak prostor pro vědce se specifickými zájmy šířit své publikace, datasety, kódy nebo jiné výzkumné výstupy. Komunita může být vytvořena kýmkoliv, například vědcem, projektovým týmem, organizací nebo státním útvarem.[15]

Zenodo je open source projekt založený na otevřeném softwaru Invenio, který slouží pro budování velkoobjemových digitálních knihoven a repozitářů.[15][18]

Datové časopisy[editovat | editovat zdroj]

Dalším způsobem publikování dat jsou datové časopisy, v rámci kterých se zveřejňují datové články (anglicky data papers).[9] Ty lze definovat jako vědecké publikace, jejichž hlavním cílem je popis dat, na rozdíl od tradičních vědeckých článků, které přinášejí informace o výzkumech. Datové články neobsahují hypotézy a argumenty, ale pouze fakta o datech. Hlavním účelem těchto článků je poskytnout citovatelnou vědeckou publikaci o činnosti vydavatelů dat, popsat data ve strukturované formě čitelné člověkem a upozornit na existenci dat především v rámci vědecké komunity.[19]

Datový článek by měl zahrnovat odkaz na daný dataset (například prostřednictvím perzistentního identifikátoru). Samotná data by měla být uložena v otevřeném datovém repozitáři, který by zajistil volný přístup k datasetu. U většiny datových časopisů se setkáme s recenzním řízením.[9]

Existují dva druhy datových časopisů - tzv. “čisté”, kde jsou publikovány pouze datové články, a “smíšené”, v rámci kterých lze najít jak datové články, tak i tradiční výzkumné články.[9][20]

Mezi čisté patří například: Earth System Science Data, Journal of Open Archaeology Data, Open Health Data, Polar Data Journal, Scientific Data...

Mezi smíšené, zvané někdy také kombinované nebo hybridní, se řadí: Biodiversity Data Journal, F1000Research, GigaScience, GigaByte, PLOS ONE, SpringerPlus…

Smíšených časopisů je až 10x více. Časopisy jsou převážně oborové, těch mezioborových je minimum. Naprostá většina těchto časopisů je Open Access.[21]

Odkazy[editovat | editovat zdroj]

Reference[editovat | editovat zdroj]

  1. a b c d KRATZ, John; STRASSER, Carly. Data publication consensus and controversies. F1000Research. 2014-10-16, roč. 3, s. 94. PMID: 25075301 PMCID: PMC4097345. Dostupné online [cit. 2021-12-01]. ISSN 2046-1402. DOI 10.12688/f1000research.3979.3. PMID 25075301. 
  2. COSTELLO, Mark J. Motivating Online Publication of Data. BioScience. 2009-05, roč. 59, čís. 5, s. 418–427. Dostupné online [cit. 2021-12-01]. ISSN 0006-3568. DOI 10.1525/bio.2009.59.5.9. (anglicky) 
  3. a b c d e f How to share your data. Author Services [online]. [cit. 2021-12-01]. Dostupné online. (anglicky) 
  4. a b ASSANTE, Massimiliano; CANDELA, Leonardo; CASTELLI, Donatella. Are Scientific Data Repositories Coping with Research Data Publishing?. Data Science Journal. 2016-04-26, roč. 15, čís. 0, s. 6. Dostupné online [cit. 2021-12-01]. ISSN 1683-1470. DOI 10.5334/dsj-2016-006. 
  5. a b HANZLÍKOVÁ, Dagmar; JANÍČEK, Milan. Sdílení výzkumných dat: As open as possible, as closed as necessary. zenodo.org [online]. February 11, 2021 [cit. 2022-01-2022]. Dostupné online. 
  6. Management výzkumných dat. Centrum pro podporu open science [online]. [cit. 2022-01-18]. Dostupné online. 
  7. Restricting access to data - Library, University of York. www.york.ac.uk [online]. [cit. 2022-01-18]. Dostupné online. 
  8. a b Enhancing your article with supplemental material. Author Services [online]. [cit. 2021-12-01]. Dostupné online. (anglicky) 
  9. a b c d e f g h i Repozitáře a datové časopisy. Centrum pro podporu open science [online]. [cit. 2021-12-01]. Dostupné online. 
  10. Supplementary material and data in journal articles. IOPscience - Publishing Support [online]. [cit. 2022-01-17]. Dostupné online. (anglicky) 
  11. Portál | Český národní korpus. korpus.cz [online]. [cit. 2021-12-01]. Dostupné online. 
  12. Datový repozitář. asep-portal.lib.cas.cz [online]. [cit. 2021-12-01]. Dostupné online. 
  13. KOULOCHERI, Eleni; KOULOCHERI, Eleni. What is a persistent identifier?. OpenAIRE [online]. [cit. 2021-12-01]. Dostupné online. (anglicky) 
  14. a b CERN and OpenAIREplus launch new European research repository. Science Node [online]. [cit. 2021-12-01]. Dostupné online. 
  15. a b c WAREHAM, Jonathan; PUJOL PRIEGO, Laia. Zenodo: open science monitor case study. Luxembourg: Publications Office of the European Union, 2019. Dostupné online. ISBN 978-92-79-96552-4. 
  16. Zenodo - Research. Shared.. help.zenodo.org [online]. [cit. 2021-12-01]. Dostupné online. 
  17. Zenodo - Research. Shared.. zenodo.org [online]. [cit. 2021-12-01]. Dostupné online. (anglicky) 
  18. Zenodo - Research. Shared.. about.zenodo.org [online]. [cit. 2021-12-01]. Dostupné online. 
  19. CHAVAN, Vishwas; PENEV, Lyubomir. The data paper: a mechanism to incentivize data publishing in biodiversity science. BMC Bioinformatics. 2011-12-15, roč. 12, čís. 15, s. S2. Dostupné online [cit. 2021-12-01]. ISSN 1471-2105. DOI 10.1186/1471-2105-12-S15-S2. PMID 22373175. 
  20. Repozitáře a datové časopisy. Open Science [online]. [cit. 2021-12-01]. Dostupné online. 
  21. CANDELA, Leonardo; CASTELLI, Donatella; MANGHI, Paolo. Data journals: A survey. Journal of the Association for Information Science and Technology. 2015, roč. 66, čís. 9, s. 1747–1762. Dostupné online [cit. 2021-12-01]. ISSN 2330-1643. DOI 10.1002/asi.23358. (anglicky) 

Externí odkazy[editovat | editovat zdroj]