国家超级计算长沙中心
自研人工智能蛋白质语言大模型:ESM-DBP
在DNA-蛋白质相互作用研究中
取得重要进展
近日,湖南大学国家超算长沙中心副主任、信息科学与工程学院彭绍亮教授课题组在国际顶级期刊Nature Communications发表了题为“Improving prediction performance of general protein language model by domain-adaptive pretraining on DNA-binding protein”的研究论文。
该研究提出了基于大型通用蛋白质语言模型和领域自适应预训练的DNA结合蛋白语言模型ESM-DBP,系统地研究了如何从蛋白质初级序列出发有效地预测DNA结合蛋白质和残基这一生物信息学和人工智能领域的挑战性问题,探索发现了基于大型蛋白质语言模型的高质量表征学习技术,为研究复杂的DNA-蛋白质相互作用机制提供了新的研究思路。
蛋白质和DNA相互作用在大多数生命活动中起到基础性的作用。传统的基于生物湿实验研究蛋白质-DNA相互作用的方法周期长、费用高,成功率低。在过去的十年中,基于深度学习的技术已广泛应用于蛋白质-DNA相互作用预测的研究中。而这些方法大多严重依赖于训练数据集中有限的初级序列和高质量的多序列比对信息,从而限制了它们的泛化性和准确性。大规模蛋白质语言模型的出现为克服这些限制提供了一个重要的机会。然而,团队经过调研发现国内外研究者使用的通用蛋白质语言模型没有特别关注特定功能领域(比如DNA结合蛋白质)的知识且通常缺乏可解释性。
为了缓解这些痛点,团队提出了DNA结合蛋白质领域自适应蛋白质语言模型ESM-DBP,主要通过在通用蛋白质语言模型的基础上使用海量的DNA结合蛋白质序列进行掩码预训练,并在DNA结合蛋白质相关的四个下游任务上系统地评估了ESM-DBP的预测性能。在多个基准测试集上和现有预测方法的比较展示了ESM-DBP优异的预测精度。ESM-DBP还展现了在只有少量相似的同源序列的蛋白质序列上较好的预测性能,远远超过通用蛋白质语言模型和国内外其他预测方法,为解决在机器学习在低同源蛋白上的功能预测精度低这一痛点提供了新的视角。
ESM-DBP在四个下游任务上优于现有的预测方法
此外,团队通过对预测模型的可解释性分析发现神经网络对于DNA结合域的高度关注,从而导致了ESM-DBP在DNA结合蛋白质预测任务上的高准确率,大大提升了蛋白质语言模型黑箱的可解释性。最后,在两个由ESM-DBP预测的DNA结合蛋白质(UniProt ID: E5RK24, K7EK85)上的CHIP-seq实验揭示了这两个蛋白质存在广泛的DNA结合作用,GO和KEGG分析表明这两个蛋白质参与了广泛的调控机制,进一步验证了ESM-DBP的有效性。
可解释性分析揭示了ESM-DBP对天然的DNA结合域的高度关注
湖南大学博士研究生曾文武为该研究论文第一作者,彭绍亮教授为论文通讯作者,湖南大学为该论文唯一完成单位。该研究受到国家自然科学基金、科技部重点研发计划、湖南省创新群体等项目的支持。
https://www.nature.com/articles/s41467-024-52293-7
◎来源:国家超级计算长沙中心
◎编辑:王映筱
▶ 何朝晖主持召开湖南湘江新区(长沙高新区)管委会主任会议
▶ 多项重磅金融政策密集出台,一图读懂→
▶ @长沙市民!国庆出行,这些你要提前了解!
了解更多新区资讯