人工智能挖掘领域取得系列成果

2022-05-12 15:17:29
4月26日,华中科技大学生命学院系统生物学与生物信息学系宁康教授团队,以华中科技大学为第一单位在国际权威期刊Genome Medicine上发表题为“Ontology-Aware Deep Learning Enables Ultrafast and Interpretable Source Tracking among Sub-Million Microbial Community Samples from Hundreds of Niches”的研究论文,提出一种基于微生物群落本体的深度学习方法,解决了在数十万个群落样本中进行快速准确的微生物群落溯源的问题。

 

微生物群落样本的物种组成具有高度的生境特异性,对微生物群落样品进行溯源,发掘其来源生态位(生态环境),是微生物组研究领域的重要问题,在人体健康、环境监控等方面具有重要实用价值。现有的微生物群落溯源方法面临着大样本,多生态位的严峻挑战。在这种情况下,现有的方法面临着准确性和效率的失衡,使得大规模的群落溯源所指导的知识发现变得尤为困难,亟需发展更为有效的微生物群落溯源方法。

微生物群落样本的快速积累为研究微生物与人类健康或环境之间的相互作用提供了机会。然而,整合的、大规模和扩展性的微生物群落调查还没有得到充分研究。这种调查具有挑战性的原因是多方面的:首先,样品的数量很容易超过数百万,而生态位的数量达到数百,导致微生物群落溯源成为一项非常复杂的任务。其次,微生物组与大数据的异质性和批次效应可能会使传统方法忽略掉一些重要的动态模式。再加上许多微生物群落相互依赖的事实,传统的模型在理论和实际应用中均不适用。

本研究开发了一种用于微生物群落溯源的本体感知神经网络(Ontology-aware Neural Network,ONN)的深度学习建模方法,即ONN4MST。该方法可以利用微生物群落本体的信息对生物群落之间的依赖关系进行建模,并估计不同的微生物群落在群落样本中的来源比例。ONN4MST使用了大量的数据(来自114个生态位的125,823个群落样本)来训练模型,基于此模型提供了一种快且精确的微生物群落溯源解决方案,可以针对包含数百个潜在生态位和数十万个群落样本的数据集进行建模和搜索,而且在可扩展性和稳定性方面也优于最先进的方法。ONN4MST在一系列微生物群落溯源应用中展现了知识发现的能力,如检测微生物污染物的来源、探究复杂生境群落样本的组成等。

生命学院博士生查毓国和本科生冲辉为论文的共同第一作者,宁康和山东大学计算机学院崔学峰教授为论文的共同通讯作者。该研究得到科技部国家重点研发计划(2021YFA0910500, 2018YFC0910502),国家自然科学基金(32071465, 31871334, 31671374, 81774008, 81573702和62072283)的资助。

此项工作是宁康团队在微生物组大数据和人工智能领域的又一重要研究成果。此系列的工作还包括:在今年4月于国内卓越期刊Genomics, Proteomics & Bioinformatics发表了题为“Microbial Dark Matter: From Discovery to Applications”的文章,提出了“微生物组暗物质”的概念。文章强调微生物组学研究揭示了丰富的新基因、物种、群落时空动态,这些新颖的群落结构和功能构成了微生物组暗物质。文章指出理解微生物组暗物质不仅是一个挑战,而且也是计算微生物学家探索大型数据集的机会,目的是更好地理解微生物群落,并为当前全球关注的人类健康和环境确定更好的解决方案。此外,在今年一月于国际权威期刊Briefings in Bioinformatics发表了题为“Ontology-aware neural network: a general framework for pattern mining from microbiome data”的文章,总结了本体感知神经网络(ONN)在微生物组暗物质数据挖掘中作为一个通用的框架所取得的优势,为下一代通用的微生物组大数据挖掘方法奠定了基础。

宁康长期从事微生物组大数据和人工智能方面的研究,已在PNAS、Gut、Genome Biology、Genome Medicine、Nucleic Acids Research等高水平学术期刊发表多篇学术论文。担任Microbiology Spectrum、Genomics Proteomics & Bioinformatics、Scientific Reports等国际期刊编委。担任中国生物信息学学会(筹)-基因组信息学分会副主任,中国生物工程学会-计算生物学与生物信息学专业委员会委员,中国计算机协会-生物信息学专业委员会委员等。(来源:华中科技大学)

收藏 举报

延伸 · 阅读