现代高通量、低成本的新一代测序 (NGS) 技术带来的数据量呈指数级增长,必将彻底改变基因组学和分子生物学,使人们能够更深入、更丰富地了解生物系统。这不仅意味着更多高准确度、多层次的数据,还意味着更多类型的组学数据集,例如糖组学、脂质组学、微生物组学和表型组学。
大规模、多维和异构数据集的日益普及,有可能为生物系统和过程带来新的见解,改善和提高诊断产量,并为从还原生物学转向更全面的系统生物学方法以解码生物实体的复杂性铺平道路。
已经确定,与单层分析相比,多维分析可以从统计学和生物学的角度产生更好的结果,并且可以对一系列研究领域产生变革性影响,例如基因型-表型相互作用、疾病生物学、系统微生物学和微生物组分析。
然而,将系统思维原则应用于生物数据需要开发全新的综合技术和流程,以便实现生物系统的多尺度表征。结合和整合来自不同生物调控层面的不同类型的组学数据是实现真正多组学的统一端到端工作流程的第一个计算挑战,也是下一个重大机遇。
这个挑战相当巨大——事实上,2019 年《分子内分泌学杂志》上的一篇文章指出,成功实施两个以上的数据集非常罕见。
多组学中的数据整合挑战
仅在一个生物复杂程度上分析组学数据集就已经足够具有挑战性。多组学分析加剧了这些挑战,并在数据整合/融合、聚类、可视化和功能表征方面引入了一些不为人熟知的新复杂性。
例如,适应生物系统固有的复杂性、大量的生物变量和相对较少的生物样本本身就是一项特别困难的任务。除此之外,还有一系列其他问题,包括数据清理和规范化、数 保加利亚手机数据 据降维、生物背景化、生物分子识别、统计验证等方面的过程变化。
数据异质性可以说是集成组学存在的理由,它通常是多组学数据管理的主要障碍。组学数据通常分布在多个孤岛中,这些孤岛由域、类型和访问类型(公共/专有)定义,仅举几个变量。通常,数据集之间在用于生成这些数据集的技术/平台、命名法、数据模式、检测类型等方面存在显著差异。因此,数据协调成为标准的预集成过程。