预训练语言模型在多模态生物医学研究中的突破与应用

AI快讯3个月前发布 admin

0 0

引言

预训练语言模型（PLMs）在自然语言处理（NLP）领域取得了显著成就，但其应用已逐渐扩展到生物医学研究。特别是在蛋白质-RNA相互作用的研究中，PLMs结合多模态学习方法，为揭示复杂基因调控过程和解析疾病遗传基础提供了新的方向。

蛋白质-RNA结合亲和力预测的突破

CoPRA模型的创新

清华大学、伦敦大学学院、莫纳什大学和北京邮电大学的联合团队提出的CoPRA模型，首次将蛋白质语言模型（PLM）与RNA语言模型（RLM）结合，用于蛋白质-RNA结合亲和力预测。该模型通过复杂结构架构，显著提升了预测性能。

CoPRA模型的关键技术

序列嵌入：从PLM和RLM的输出中选择交互界面处的嵌入。
结构信息：提取交互界面的结构信息，作为配对嵌入。
Co-Former模型：轻量级模型，将序列嵌入与结构信息结合，形成结构-序列融合模块。

性能评估

CoPRA模型在多个数据集上进行了评估，结果显示其在预测蛋白质-RNA结合亲和力方面性能最佳。具体指标如下：

数据集	RMSE	MAE	PCC	SCC
PRA310	1.391	1.129	0.580	0.589
PRA201	1.129	0.833	0.550	0.570

预训练语言模型在多模态生物医学研究中的突破与应用

多模态学习的应用

多模态特征提取框架

厦门大学的研究人员提出了一种新颖的多模态特征提取（MFE）框架，结合蛋白质表面、3D结构和序列信息，显著提升了蛋白质-配体结合亲和力预测的性能。

EvoLLama框架

华东师范大学等机构提出的EvoLLama框架，将蛋白质结构编码器、序列编码器和大语言模型进行多模态融合，在零样本设置下展现出了强大的泛化能力。

文本边图数据集TEG-DB的贡献

上海大学、山东大学和埃默里大学等机构的研究人员首次提出了文本边图的数据集与基准TEG-DB，包括9个覆盖4个领域的大规模文本边图数据集，以及一套标准化的文本边图研究范式。该研究促进了文本边图图表示学习的研究，有利于自然语言处理与图数据挖掘领域的深度合作。

结论

预训练语言模型在生物医学领域的应用，特别是通过多模态学习方法，为蛋白质-RNA结合亲和力预测提供了新的突破。同时，文本边图数据集TEG-DB的提出，进一步推动了自然语言处理与图数据挖掘领域的合作与发展。未来，随着更多机器学习手段的引入，生物学家将能更深入地了解蛋白质与其他生物分子的相互作用，为新药研发提供更多助益。