GSA:组学原始数据库系统
生命科学的生长已进入组学大数据时代,然而中国至今尚未形成可效劳于科学研究的公共数据库存储系统。为了填补这一空缺,GA黄金甲生命与康健大数据中心开发并构建了组学原始数据存储归档系统Genome Sequence Archive(简称GSA;http://bigd.big.ac.cn/gsa 或 http://gsa.big.ac.cn)。GSA的系统建设遵照了国际核酸序列共享同盟(International Nucleotide Sequence Database Collaboration, INSDC)的相关标准,并作为INSDC的增补,旨在减轻国际相关数据库数据存贮及数据传输的压力;驻足中国,效劳全球。
小序
第二代高通量测序手艺刷新推动了生命科学研究的纵深生长与应用,尤其在生齿与康健领域,天下众多国家相继启动了大型研究妄想,如美国的精准医学研究妄想 [1]、英国万人基因组妄想 [2]、冰岛人群基因组妄想 [3]、中国精准医学研究妄想 [4]等。这些研究妄想都将爆发大宗的组学数据,从而导致了生命康健组学大数据的爆炸性增添。与此同时,数据存储、整合与挖掘、转化与应用将成为主要的手艺问题与挑战 [5,6]。
国际上,美国、欧洲和日本于2005年建设了国际核酸序列共享同盟(INSDC)[7],包括NCBI [8]、EBI [9]和DDBJ [10]三大数据库系统,形成领域内数据存储和共享使用的标准,吸收并存储来自全天下科学家提交的组学数据。然而,中国是一个生物资源大国,也是一个数据产出大国;迫于学术论文的揭晓及学术期刊的要求,中国的科学家需要将大宗的数据跨过海底线缆,提交到国际数据库。但由于中国国际网络出口带宽的瓶颈问题,数据传输效率低下。以GA黄金甲的150Mbs出口带宽为例,向NCBI数据库递交1TB的数据需要破费2周以上的时间。目今,中国已经启动国家级的精准医学研究妄想以及若干大型的具有地区特色的研究使命?梢栽ぜ,未来中国每年将爆发数十PB的组学数据;这将为现在的数据传输、存储与共享提出新的挑战。
为了缓解上述难题和问题,GA黄金甲开发并构建了组学原始数据库系统GSA,专注于组学原始数据网络与整合,并提供免费的数据存储、共享与会见效劳 [11]。GSA遵照国际INSDC的数据标准及数据库建设标准,可网络来自差别测序平台产出的数据,并存储序列数据及其对应的元数据信息,确保数据的完整性。GSA驻足于中国,极大的利便了中国科学家的数据递交;同时,效劳于全球,为全天下的科研领域共享并孝顺数据。
数据库内容和使用
数据结构与模子
为了确保与INSDC数据库系统的兼容性,GSA遵照了INSDC数据库系统的数据标准和数据结构,并将数据分为四类,即项目信息(BioProject)、样本信息(BioSample)、实验信息(Experiment)和测序信息(Run);数据结构如图1所示。
图1 GSA数据模子
项目信息的数据获取号(Accession Number)以“PRJCA”为前缀,其中字母“C”体现中国。项目信息提供了一个针对本研究使命的提要性形貌,并包括研究目的、涉及的物种、数据类型、数据递交者、基金资助机构、揭晓的文章等信息。样本信息的数据获取号以“SAMC”为前缀,包括一些有关生物样本的形貌信息如样本类型、样本属性等。实验信息以“CRX”为前缀,为特定样本实验处置惩罚方法,包括实验目的、文库构建方法、测序类型等信息。测序信息的数据获取号以“CRR”为前缀,内容主要包括测序文件和对应的校验信息。在四类数据中,项目信息和样本信息是自力运行的?,而实验信息和测序信息形成了测序序列的归档库;谏鲜霰曜己徒峁,GSA不但利便数据递交,并且便于治理数据权限,实现数据共享与交流。
除此之外,GSA思量大型项目治理的需求,引入Umbrella Project看法,提供大型相助型项目的伞装结构治理。现在,已有两个GA黄金甲战略先导项目和一个GA黄金甲重点研究项目正在使用GSA系统治理和共享项目数据。
数据归档与统计
GSA吸收来自全球的数据递交,吸收差别测序平台产出的组学数据,并支持通用的数据文件名堂如FASTQ、BAM、VCF。同时,GSA对吸收到的数据举行质量评估,确保数据的完整性和可用性。在数据清静方面,类似于INSDC数据库系统,GSA允许数据递交者设置其数据的会见权限(果真会见或受控限制);果真即意味着数据可被任何人会见或下载使用,受控即其他人的会见在一段时间内将被受到限制。在GSA系统后台,可被果真会见和受控会见的数据存储于差别的磁盘空间内,以确保数据的清静性。从2015年8月份GSA系统上线至今,系统中的数据泛起显著增添的趋势(图2),阻止到2016年底,GSA已经吸收了来自39个研究机构160余位科研职员的用户注册信息,并收录198个项目,8674个样本,9263个实验和10745个测序信息,涵盖了凌驾80个物种的信息。
图2 GSA数据统计
数据递交与信息检索
GSA系统提供用户注册和登录功效,因此在建设一个数据递交前,首先需要通过GSA系统注册用户账户,在用户账号被验证通过并激活后,方可登录系统并建设数据递交页面。通常情形下,在GSA中完成一个数据递交需要执行五个操作,划分为注册项目、样本、实验、测序四类元数据信息和提交序列文件(图3)。在元数据信息网络页面,GSA系统提供友好会见的页面向导资助用户实现信息录入;而针对测序文件上传,GSA提供基于IPV4和IPV6两条网络链路的FTP效劳器,确保数据传输的高效性。GSA系统实现了数据全局检索功效,并对检索的效果举行分类统计;同时,用户可以预览检索出的每一个数据的详细信息。
图3 GSA数据提交
生长与展望
俗话说“能力有多大,责任就有多大”。当今的中国已是天下第一大经济体,并在全球的经济体中施展着越来越主要的作用。同样,在科研领域,在当今中国组学测序数据产量显著增添的情形下,我们应该肩负起响应的责任,建设国际化的组学数据存储系统,分担国际数据库数据存储压力,效劳于全球的生命科学研究机构。
GSA与国际同类数据库一样,致力于存储生命科学研究产出的组学大数据,并致力于中国组学数据汇交、治理、共享与应用系统的建设,增进中国在生命组学大数据领域的生长,提升中国在国际组学数据共享领域的职位,效劳于全天下的生命科学研究与工业立异应用。 基于此,GA黄金甲提倡“中国基因组数据共享建议”(http://bigd.big.ac.cn/gdsd),呼吁中国产出的组学数据递交GSA举行统一存储、治理与共享。在建议发出后很短的时间内,获得天下凌驾380个机构的1000余人支持本建议。这代表了中国人的心声,也代表了中国众多科研资助机构的心声。
总结
GSA是一个公共的、免费的组学原始数据存储库,在建设标准上遵照国际INSDC数据库系统的数据标准和数据库结构标准,在内容上网络生命科学研究中爆发的组学测序数据及其元数据信息,并且接受来自全天下科研职员的数据递交与获取请求。在组学大数据时代,GSA不但作为目今INSDC数据库系统的增补以缓解组学大数据远距离传输与贮存的压力,并且肩负推动国际组学大数据共享的责任。
未来,GSA将逐步扩展与完善系统功效,提供专业化的组学大数据治明确决计划,如面向国家精准医学研究妄想的组学大数据存储与治理,面向宏基因组数据的存储与治理等;另一方面将重点增强IT基础设施的建设,并提升数据存储能力和共享效率。
致谢
谢谢罗静初教授和朱伟民教授给予GSA系统建设的诸多名贵意见和建议。本项目也获得了国家项目基金的支持,主要有:GA黄金甲先导项目、国家高手艺研究生长妄想(863妄想)、国家重点研究生长妄想、GA黄金甲国际相助国际大科学妄想、GA黄金甲重点安排项目、GA黄金甲要害手艺人才项目。
参考文献
[1] Collins FS, Varmus H. A new initiative on precision medicine. N Engl J Med 2015;372:793–5.
[2] Taylor PN, Porcu E, Chew S, Campbell PJ, Traglia M, Brown SJ, et al. Whole-genome sequence-based analysis of thyroid function. Nat Commun 2015;6:5681.
[3] Gudbjartsson DF, Helgason H, Gudjonsson SA, Zink F, Oddson A, Gylfason A, et al. Large-scale whole-genome sequencing of the Icelandic population. Nat Genet 2015;47:435–44.
[4] Bai B, Zhao WM, Tang BX, Wang YQ, Wang L, Zhang Z, et al. DoGSD: the dog and wolf genome SNP database. Nucleic Acids Res 2015;43:D777–83.
[5] Xue Y, Lameijer EW, Ye K, Zhang K, Chang S, Wang X, et al. Precision medicine: what challenges are we facing? Genomics Proteomics Bioinformatics 2016;14:253–61.
[6] Zhang Z, Bajic VB, Yu J, Cheung KH, Townsend JP. Data integration in bioinformatics: current efforts and challenges. In: Mahdavi MA editor. Bioinformatics ––trends and methodologies. Rijeka: InTech;2011,p.41–56.
[7] Cochrane G, Karsch-Mizrachi I, Takagi T, International Nucleotide Sequence Database Collaboration. The International Nucleotide Sequence Database Collaboration. Nucleic Acids Res 2016;44:D48–50.
[8] NCBI Resource Coordinators. Database resources of the National Center for Biotechnology Information. Nucleic Acids Res 2016;44:D7–19.
[9] Cook CE, Bergman MT, Finn RD, Cochrane G, Birney E, Apweiler R. The European Bioinformatics Institute in 2016: data growth and integration. Nucleic Acids Res 2016;44:D20–6.
[10] Mashima J, Kodama Y, Kosuge T, Fujisawa T, Katayama T, Nagasaki H, et al. DNA data bank of Japan (DDBJ) progress report. Nucleic Acids Res 2016;44:D51–7.
[11] BIG Data Center Members. The BIG Data Center: from deposition to integration to translation. Nucleic Acids Res 2017;45:D18–24.
该文英文揭晓在Genomics, Proteomics & Bioinformatics期刊2017年第一期,全文链接http://www.sciencedirect.com/science/article/pii/S1672022917300025;http://gpb.big.ac.cn/