记者 俞陶然
最近,网上流传着一个关于结构生物学家颜宁回国“真实原因”的说法,称AlphaFold 2(阿尔法折叠2)等人工智能系统的问世,让结构生物学家面临“失业”困境。知乎上有人写道:“颜宁教授看到AlphaFold,就像骁勇善战的部落首领看到了航空母舰。不是颜宁不行,而是英国DeepMind太强大了。”
事实是否如此?记者采访了计算生物学家、复旦大学复杂体系多尺度研究院院长马剑鹏教授。他带领团队已开发出功能与AlphaFold 2类似的OPUSFold(作品折叠)系统。他直言:“AI(人工智能)让一流结构生物学家失业,是我听过的最荒唐的说法。”
AI助力摘取“皇冠上的明珠”
“阿尔法折叠2”是谷歌旗下深度思维(DeepMind)公司的产品,与“阿尔法围棋”相仿,都是采用机器学习技术的人工智能系统。在2020年举行的国际蛋白质结构预测大赛上,“阿尔法折叠2”夺得冠军,它预测的蛋白质三维结构与实验测定的结构只有很小差异,被《科学》杂志评为“2020年十大科学突破”之一。
为何要用人工智能系统预测蛋白质三维结构?马剑鹏解释,蛋白质由一系列氨基酸折叠而成。氨基酸线性排列成一条长链,把它放到水里,整条链会在微秒至毫秒内折叠成一个稳定的三维结构。研究氨基酸长链如何自发地折叠成三维结构,简称“蛋白质折叠”问题,因其重要性和复杂性,被视作现代分子生物学“皇冠上的明珠”。在应用领域,小分子药物研发的基础就是蛋白质结构解析,只有探明目标蛋白质的“三维地图”,才能找到药物作用于蛋白质的靶点。
对科学家来说,测定氨基酸序列相对容易,但解析蛋白质结构的难度很大,因为蛋白质结构取决于几千个氨基酸各个原子间的相互作用力。根据已知氨基酸序列,用计算机预测蛋白质结构的运算量,连世界上最快的超级计算机也很难承受。
随着深度学习、强化学习等人工智能技术的兴起,计算生物学出现了跨越式发展。“阿尔法折叠2”等系统在学习实验测定的大量蛋白质结构后,具备了根据氨基酸序列准确预测结构的能力。今年,深度思维公司发布数据集更新,称“阿尔法折叠2”已预测几乎所有已知的蛋白质。
“干湿结合”成为生物学趋势
既然人工智能系统可以准确预测蛋白质结构,那么结构生物学家是否会面临“失业”困境?
据介绍,结构生物学是一门研究生物大分子的三维空间结构、动态过程和生物学功能的交叉性学科。解析各种蛋白质的三维结构,是结构生物学家的一项主业。作为国际知名的结构生物学家,颜宁曾在清华大学、普林斯顿大学工作,是美国国家科学院外籍院士、美国艺术与科学院院士。
对于网传说法,颜宁通过微博回应:在她研究的电压门控钠离子和钙离子通道领域,“阿尔法折叠2”学习了她带领团队解析的多个生物结构后,去年的预测精度达到颜宁团队2017年的水平,今年则没有进步。“AI团队做预测,我们做实验,测试新型小分子与蛋白的相互作用,迄今为止预测无一正确。”
马剑鹏表示,“阿尔法折叠2”远没有达到取代结构生物学家的能力。目前,它只能预测单链蛋白质的结构,基本不具备预测多链蛋白质结构的功能。而且在单链蛋白质预测方面,由于人工智能预测基于对已知蛋白质结构的比对学习,它对与其同源的蛋白质结构预测是比较准确的,然而面对拥有“孤儿序列”(氨基酸序列独一无二)的蛋白质时,“阿尔法折叠2”往往就无法准确预测了。
另外,在蛋白质侧链预测方面,“阿尔法折叠2”也有较大的提升空间。2021年,复旦大学复杂体系多尺度研究院在英国《生物信息学简报》上发表论文,报告他们开发的“作品折叠”在蛋白质侧链预测精度上,比“阿尔法折叠2”高。据介绍,蛋白质三维结构由主链和侧链搭建而成。药物分子与蛋白质的结合大多通过与氨基酸侧链相互作用来实现,所以人工智能系统对侧链结构的精准预测,对新药研发具有重要价值。
由此可见,人工智能并不会让结构生物学家“失业”,两者不是取代关系,而是互补关系。“AlphaFold 2对颜宁这样的一流实验结构生物学家来说,有百利而无一害。”马剑鹏说,实验结构生物学家也是要用计算机建模的,AlphaFold 2、OPUS-Fold这类软件可以加快建模速度,提高蛋白质结构解析的效率。
如今,“干湿结合”已成为结构生物学研究的趋势。长期以来,开展计算生物学研究的“干实验室”是生物学的配角。随着人工智能的兴起,这个配角已逐渐成长为主角,与实验生物学家工作的“湿实验室”更紧密地结合在一起,共同探索生命分子结构的奥秘。
“真正的研究者都乐于拥抱技术进步,善于用各种技术去探寻、解答自己感兴趣的问题。”颜宁表示,期待AI越来越强大。