Fair data

Z Wikipedie, otevřené encyklopedie

FAIR data [fér data] jsou metodickým souborem pokynů ve světě vědy a výzkumu pro publikování výzkumných dat.

Fair/Fér metody jsou základními principy, které fungují jako směrnice pro určení publikovaných vědeckých dat v kontextu jejich digitálního zpracovávání a užívání jak uživateli (lidmi) tak zpracovateli (stroje, počítače). Data a metadata, využívaná na základě FAIR principů, by dle měla být vyhledatelná (findable), přístupná (accessible), čitelná a strojově zpracovatelná (interoperable) a v poslední řadě by data a metadata měla být použitelná, případně užitá znovu bez změny své povahy (reusable). Tyto základní body FAIR principů při práci s metadaty ve vědecké publikování jsou dále rozděleny na konkrétnější kritéria, která by měla být dodržována především v databázových systémech a datových repozitářích, které tyto data zpřístupňují.[1] Uplatnění těchto zásad je klíčovým bodem pro snazší sdílení dat, využívání informací a služeb pro vědeckou i širší odbornou veřejnost [2] a zároveň FAIR zpracovaná data zvyšují kvalitu digitálních zdrojů v kontextu tzv. otevřené vědy (open science) a volného přístupu ke zdrojům (open access).

Historie[editovat | editovat zdroj]

Zkratka a principy byly definovány roku 2016 v časopise Scientific Data konsorciem vědců a organizací [3]. FAIR data a principy vycházejí z principů strojové zpracovatelnosti dat publikovaných z vědecké činnosti společnosti Concept Web Alliance a sdružení FORCE11. Samotná vize vyhledatelnosti, přístupnosti, použitelnosti a citovatelnosti vědeckých dat byla poprvé představena na konferenci v Leidenu v roce 2014. Zároveň se stanovením samotných FAIR-principů byla založena i skupina občanského sdružení FORCE11 – pojmenované také FAIR. V roce 2017 byl spuštěn projekt EOSC a byla založena iniciativa Global Open FAIR [4] – ve stejném roce česká skupina ELIXIR a nizozemský institut DTL vytvořili Data Stewardship Wizard (program, který umožnil plánovat správu dat pro výzkum). V roce 2020 měl být v rámci projektu European Open Science Cloud sjednocen přístup k datovým výstupům v rámci realizace výzkumých projektů v Evropě.[5]

FAIR principy[editovat | editovat zdroj]

Podle FAIR principů by digitální data a jejich metadata měla být dohledatelná (findable), přístupná (accessible), čitelná a strojově zpracovatelná (interoperable) a znovupoužitelná bez změny své povahy (reusable). Tyto FAIR principy jsou dále rozděleny na konkrétnější kritéria, tzv. bodů, které by měly být dodržovány především v databázových systémech a datových repozitářích, z důvodu zlepšení přístupu k těmto datům.[1]

Pro snazší sdílení dat a využívání informací v nich obsažených, jsou tyto zásady klíčové, jelikož přispívají ke zvýšení kvality digitálních zdrojů.

Findable – dohledatelnost[editovat | editovat zdroj]

F1. (meta)datům je přiřazen jedinečný a perzistentní identifikátor (např. DOI)
F2. data jsou popsána dostatečnými metadaty
F3. (meta)data jsou registrována nebo indexována ve prohledávatelných zdrojích  
F4. metadata specifikují identifikátor

Accesible – přístupnost[editovat | editovat zdroj]

A1. (meta)data lze získat pomocí jejich identifikátorů při využití standardních komunikačních protokolů
A1.1 protokol je otevřený, zdarma k dispozici a univerzálně použitelný
A1.2 protokol umožňuje v případě potřeby autentizaci a autorizaci
A2. metadata jsou dostupná i v případě, že data samotná již nejsou k dispozici

Interoperable – interoperabilita[editovat | editovat zdroj]

I1. (meta)data používají pro reprezentaci znalostí formální, dostupný, sdílený a široce aplikovatelný jazyk
I2. (meta)data používají slovníky, které se řídí zásadami FAIR
I3. (meta)data obsahují reference na další (meta)data

Reusable – znovuvyužitelnost[editovat | editovat zdroj]

R1. meta(data) mají množství přesných a relevantních atributů
R1.1 (meta)data jsou zveřejněna s jasnou a dostupnou licencí
R1.2 (meta)data jsou spojena se svým původem
R1.3 (meta)data splňují standardy vědecké komunity pro daný obor

[6]

Princip F – findable – dohledatelnost[editovat | editovat zdroj]

První bod principu – F.1 – data či metadata musí být dohledatelná. K tomu slouží trvalý odkaz, ang. Persistent identifier (dále jen PI). Tento termín je nejčastěji spojen s daty přístupnými přes síťové rozhraní, kde není takový identifikátor jen trvalý, ale taktéž použitelný. V tomto případě lze jako příklad PI uvést URL. Mezi globální PI patří třeba identifikátor digitálního objektu (Digital Object Identifier – DOI).[1][4]

Druhým bodem je princip označený jako „F.2“. Veškerá data musí být dostatečně popsána svými metadaty. Tato metadata mohou sloužit k následnému snazšímu vyhledávání a filtrování v datech. Metadata bychom mohli definovat jako „data o datech“, která se v digitálním prostředí využívají ve strojovém (počítačovém) zpracování při třídění a vyhledávání.

Třetí bod „Findability“ – označen jako „F-3“ reprezentuje nalezitelnost dokumentu/datových souborů a určení dostupnosti a existence těchto souborů v databázi nebo úložišti. Podobně je definován i princip „F-4“, který udává, že data by měla mít svůj specifický datový identifikátor.[1]

Princip A – accessible – přístupnost[editovat | editovat zdroj]

Princip přístupnosti dat (nebo jejich získání nebo dosažení přístupnosti k nim) je základním principem, při jehož použití by měly být poskytnuty podmínky k tomu, aby data byla přístupná pro toho, kdo je vyhledává. Ve výsledku by přístupnost dat dle Principu FAIR měla zahrnovat přístupnost koncového uživatele ke zdroji nebo ke stažení datových souborů . Jedná se tedy o zohlednění požadavku, kdy data nemusejí být nutně přístupná volně, ale stačí, když je zde poskytnuta možnost jejich zpřístupnění (například při přihlášení do databáze). K tomuto se vztahuje první bod „A-1“, kdy přes TCP (transfer Control Protocol) webový prohlížeč umožní uživateli přístup k části uloženého datového souboru (například dle metadat k abstraktu dokumentu nebo k jeho citaci), ovšem neumožní nahlédnout do jeho fulltextu nebo jeho stažení. Takový vyhledávací systém na základě protokolu je tak volný (free and universaly immplementable), ale nepřístupný každému koncovému uživateli. Otevřený přístup k takovým datovým úložištím je poté dle bodu „A-2“ podmíněna trvanlivostí uložených metadat – tedy i přesto, že samotné zdrojové datové soubory již nejsou přístupné nebo nejsou v úložišti k dispozici, metadata těchto souborů by měla být zachována (při vyhledávání jsou přístupná data o existenci dokumentu, ale k nahlédnutí je například pouze abstrakt nebo metadatový záznam o souboru).[4]

Princip I – interoperable – interoperabilita[editovat | editovat zdroj]

Princip „I“ (čitelnost, reprezentace) je jeden z FAIR principů při publikování dat, který zaručuje, že data v repozitáři, v datovém úložišti nebo databázi mohou být snadno strojově čitelná a zpracovatelná, tedy, že každý počítačový systém zná alespoň formáty výměny dat druhého systému. [1] Ve výsledku zpracované datové soubory by měly být přenositelné z jednoho systému do druhého za pomocí výměnných formátů dat, datových modelů (jako je například Dublin Core), řízených slovníků a tezaurů [4]. K těmto principům se vztahují body „I-1“ (metadata a data využívají slovníky, kterými se FAIR principy řídí) až „I-3“ (metadata a data odkazují na související data), která pro FAIR data stanovují, jaký výměnný formát bude použit (tedy zda se jedná o stejné výměnné formáty) a zda tyto datové soubory obsahují řízené slovníky nebo zda jsou na metadata vázána jiná data.[1][4]

Princip R – reusable – znovuvyužitelnost[editovat | editovat zdroj]

Princip „R-1“ ((Meta)data jsou bohatě popsána s množstvím přesných a relevantních atributů) stanovuje úroveň, na které jsou data a medata znovupoužitelná. Znovupoužitelnost (popřípadě znovuvyužitelnost) dat lze posoudit i s přihlédnutím k metadatům (popisná metadata, která by měla být co nejvíc vyčerpávající, plurální).  Mezi taková metadata patří uvedení zdrojů, ze kterých prezentovaná data pocházejí a jakou mají povahu, jak a kým byla zpracována a zveřejněna. Uvedení zdroje (tedy původce dat) má povahu licence, kam patří například licence Creativ Commnons. Podle dalšího bodu „R-1.2“ by publikovaná data a metadata měla být svázána se svým původcem a dle bodu „R-1.3“ byla měla FAIR data respektovat komunitní standardy (standardizovaná data, formátované soubory, slovníky, postupy pro sdílení dat a jejich uchovávání.[2]

Literatura[editovat | editovat zdroj]

IVÁNOVÁ, I., N. BROWN, R. FRASER, N. TENGKU a E. RUBINOV. FAIR AND STANDARD ACCESS TO SPATIAL DATA AS THE MEANS FOR ACHIEVING SUSTAINABLE DEVELOPMENT GOALS. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019, XLII-4/W20, 33-39. ISSN 2194-9034. Dostupné z: doi:10.5194/isprs-archives-XLII-4-W20-33-2019

HANK, Carolyn a Bradley Wade BISHOP. Measuring FAIR Principles to Inform Fitness for Use. International Journal of Digital Curation. 2018, 13(1), 35-46. ISSN 1746-8256. Dostupné z: doi:10.2218/ijdc.v13i1.630

GO FAIR [online]. Hamburg: Go fair [cit. 2021-12-13]. Dostupné z: https://www.go-fair.org

NOVOTNÝ, Vít. FAIR data: principy pro správu výzkumných dat. Masarykova univerzita, Fakulta informatiky. Brno, 2018. 4 strany. Dostupné také z: https://dspace.muni.cz/bitstream/ics_muni_cz/1074/1/report.pdf

Otevřená výzkumná data. Univerzita Karlova [online]. Praha: Centrum pro podporu open science, c 2022, 8. březen 2021 [cit. 2022-01-22]. Dostupné z: https://openscience.cuni.cz/OSCI-64.html

WILKINSON, Mark D., Michel DUMONTIER, IJsbrand Jan AALBERSBERG, et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 2016, 3(1). ISSN 2052-4463. Dostupné z: doi:10.1038/sdata.2016.18

Reference[editovat | editovat zdroj]

  1. a b c d e f HANK, Carolyn; BISHOP, Bradley Wade. Measuring FAIR Principles to Inform Fitness for Use. International Journal of Digital Curation. 2018-12-22, roč. 13, čís. 1, s. 35–46. Dostupné online [cit. 2021-12-13]. ISSN 1746-8256. DOI 10.2218/ijdc.v13i1.630. 
  2. a b IVÁNOVÁ, I.; BROWN, N.; FRASER, R. FAIR AND STANDARD ACCESS TO SPATIAL DATA AS THE MEANS FOR ACHIEVING SUSTAINABLE DEVELOPMENT GOALS. The International Archives of the Photogrammetry, Remote Sensing and Spatial Information Sciences. 2019-11-15, roč. XLII-4/W20, s. 33–39. Dostupné online [cit. 2021-12-13]. ISSN 2194-9034. DOI 10.5194/isprs-archives-XLII-4-W20-33-2019. (anglicky) 
  3. WILKINSON, Mark D., Michel DUMONTIER, IJsbrand Jan AALBERSBERG, et al. The FAIR Guiding Principles for scientific data management and stewardship. Scientific Data. 2016, 3(1). ISSN 2052-4463. Dostupné z: doi:10.1038/sdata.2016.18
  4. a b c d e GO FAIR initiative: Make your data & services FAIR. GO FAIR [online]. [cit. 2021-12-13]. Dostupné online. (anglicky) 
  5. NOVOTNÝ, Vít. FAIR data: principy pro správu výzkumných dat. Masarykova univerzita, Fakulta informatiky. Brno, 2018. 4 strany. Dostupné také z: https://dspace.muni.cz/bitstream/ics_muni_cz/1074/1/report.pdf
  6. Otevřená výzkumná data. Univerzita Karlova [online]. Praha: Centrum pro podporu open science, c 2022, 8. březen 2021 [cit. 2022-01-22]. Dostupné z: https://openscience.cuni.cz/OSCI-64.html

Externí odkazy[editovat | editovat zdroj]