FAIR 原则

FAIR 是一套科研数据与资源可发现、可访问、可互操作、可复用的国际通用准则。

F = FindableA = AccessibleI = Interoperable R = Reusable

F

数据、流程、工具、样本资源容易被检索、定位

  • 全局唯一、持久化标识(DOI、PID、BioSample ID)
  • 丰富、标准化元数据(样本信息、实验条件、测序平台、版本)
  • 可被搜索引擎、数据库、平台索引
  • 示例:组学数据入库 ENA/GSA,带项目编号 + 样本描述

A

资源合法、可获取,有明确访问规则

  • 通过标准化协议访问(HTTP、FTP、S3、API、GA4GH 接口)
  • 身份认证、权限分级(公开 / 受控 / 涉密)
  • 即使数据受限,元数据永久可查
  • 长期稳定存储,不会链路失效、文件失联

I

数据、格式、流程、工具跨平台、跨软件、跨机构通用

  • 使用标准化文件格式(FASTQ、BAM、VCF、TSV)
  • 标准语义词汇、受控术语(基因 ID、疾病术语、本体库)
  • 通用交换协议与接口(WES/TES、CWL/WDL、RO-Crate)
  • 不同分析软件、工作流引擎可无缝对接解析

R

数据与流程可二次分析、复用、复现

  • 清晰许可协议(开源 / 受控 / 版权说明)
  • 完整溯源:实验方案、参数、版本、引用文献
  • 结构化、可解析,支持二次挖掘、整合、联合分析
  • 分析工作流可移植、重复运行(如 Galaxy 历史、Nextflow 流程)