FAIR 原则
FAIR 是一套科研数据与资源可发现、可访问、可互操作、可复用的国际通用准则。
F = Findable、A = Accessible、I = Interoperable 、R = Reusable
F
数据、流程、工具、样本资源容易被检索、定位
- 全局唯一、持久化标识(DOI、PID、BioSample ID)
- 丰富、标准化元数据(样本信息、实验条件、测序平台、版本)
- 可被搜索引擎、数据库、平台索引
- 示例:组学数据入库 ENA/GSA,带项目编号 + 样本描述
A
资源合法、可获取,有明确访问规则
- 通过标准化协议访问(HTTP、FTP、S3、API、GA4GH 接口)
- 身份认证、权限分级(公开 / 受控 / 涉密)
- 即使数据受限,元数据永久可查
- 长期稳定存储,不会链路失效、文件失联
I
数据、格式、流程、工具跨平台、跨软件、跨机构通用
- 使用标准化文件格式(FASTQ、BAM、VCF、TSV)
- 标准语义词汇、受控术语(基因 ID、疾病术语、本体库)
- 通用交换协议与接口(WES/TES、CWL/WDL、RO-Crate)
- 不同分析软件、工作流引擎可无缝对接解析
R
数据与流程可二次分析、复用、复现
- 清晰许可协议(开源 / 受控 / 版权说明)
- 完整溯源:实验方案、参数、版本、引用文献
- 结构化、可解析,支持二次挖掘、整合、联合分析
- 分析工作流可移植、重复运行(如 Galaxy 历史、Nextflow 流程)