原创:亲爱的数据,谭婧
英伟达公司坐拥万亿市值,一创再创高光时刻。
这家公司掌舵人如何看待AI的未来?
这么说吧,只要英伟达股价还能涨,我就会对此保持浓厚兴趣。
巧了,2024年春节,英伟达创始人兼CEO黄仁勋在迪拜有个高端对话。
阿联酋人工智能部长Omar Al Olama问了个好问题。
黄仁勋回答的信息量很大,我不仅反复仔细看了,还讨论了一把。
“We say drug discovery, nobody says car discovery, we don't say computer discovery, we don't say software discovery。”
(此处有视频,请移步“亲爱的数据”视频号,顺手点关注)
黄仁勋谈道,
在未来,生命科学等相关领域不会用“发现(discovery)”这个词。
现在我们说“药物发现”,但不会说 “汽车发现”“软件发现”。
若词语用法发生变化,很可能是底层基础技术发生了变化,导致含义有所变化。
以前说,电话沟通一下,
现在用微信,说“视频/语音沟通一下”。
未来,“发现新药物”会变成“设计新药物”。
“发现”是自然界里有,设计意味着可能自然界里没有。
黄仁勋没有用网红词“AI颠覆”,而是在娓娓道来一种“转变”。
他用的原词是“turn to”(转变)。
在他的描绘中,未来生物学(或者说以生物学为基础的学科)会像传统行业(比如汽车和软件)那样高度工程化。
为了避免误解,我们先统一认识。生物学不是没有工程,本文不讨论原有工程,只聚焦科学转变为工程。
如何理解这种转变,以及这会对英伟达有什么影响?
蛋白质是生命的基石,本文的讨论从AI预测蛋白质结构开始。
蛋白质结构是决定其功能的关键因素,了解蛋白质结构以便理解蛋白质功能,或者反过来,已知蛋白质功能设计蛋白质。
比如,药物筛选,了解蛋白质结构可以帮助筛选出更有效的药物候选物,缩短药物研发周期。再比如,抗体药物设计,已知抗原结构特征,设计能和该抗原稳定结合的抗体。
第一个台阶
AlphaFold
没有谷歌AlphaFold软件的时候,人类约已知17万种蛋白质折叠后的空间结构。
这些“已知信息”主要来自于实验室,方法包括X射线晶体学、电子显微镜和核磁共振等成像技术。AlphaFold是谷歌DeepMind团队开发的一种蛋白质结构预测系统。根据蛋白质的氨基酸序列预测其三维结构。
预测的准确率在不断提高,越来越准。
AlphaFold软件用到当时很新且很厉害的算法(MSA)。重点是对这些序列进行比对,找到氨基酸序列相似的蛋白质;进而推测未知结构蛋白质的结构。
任何算法都有局限,理解原理才能认清局限。
该算法比较擅长在很多结构相似的蛋白质间做预测。
打个比方,一个蛋白质和它结构相似的蛋白质多,好比“兄弟姐妹”多,这时候MSA算法的效果就好。这样一种“靠亲戚”的算法,对孤儿蛋白(orphan proteins)的预测准确度就比较低。
第二个台阶
AlphaFold2
第二个台阶依然是谷歌跨上去的,谷歌在这个领域的实力不容小觑。
早在2020年,AlphaFold2展现出优秀的预测能力,预测精度达到与实验方法相当的水平。AlphaFold2一顿猛干,从问世之时一直干到2022年7月,就把地球上几乎所有的2.14亿种蛋白质结构都做了预测,这18个月的成果是人类历史工作量的好几百倍。
AlphaFold2的局限是停留在对现有蛋白质的结构预测,没有考虑设计全新蛋白质的需求。
此时,蛋白质工程的工作只浅浅开了个头。
在过去的两年里,值得一讲的里程碑式算法有三个,:
第一个是ProteinMPNN;第二个是ProGen;第三个是RFdiffusion。
第三个台阶
ProteinMPNN
第三个台阶是David Baker(大卫·贝克)实验室的成果ProteinMPNN迈上去的。
David Baker(大卫·贝克)这个科学家特别值得好好聊聊。
这位生于1962年的老教授,想必头发也有些花白了吧,我欣赏那种用尽毕生精力只为做成一件事的科学家。
David Baker(大卫·贝克)开创了预测和设计蛋白质三维结构的方法,称赞其为“蛋白质设计”领域的行业领军人物,实至名归。
我断断续续地观察他们团队好几年了,每每写这个领域,就不得不感慨,这团队又为行业做了不少好事。
有些科学家的AI成果只停留在学术论文里,进展太小,创新极微,或者没啥人用;
有些科学家的AI成果一经问世就属于某个商业实体,想用就要掏钱。
再反观David Baker(大卫·贝克)团队,论文高产似母鸡,专利收割机。仅仅是一个实验室的成果,完全可以拿出来和谷歌内部这个方向的团队PK,我相信这种良性竞争是“推动行业进步的催化剂”。
于是,2022年9月,David Baker(大卫·贝克)实验室拿出来一种蛋白质设计方法ProteinMPNN。
教授的自我点评很关键,他说:“AlphaFold是预测蛋白质结构,而ProteinMPNN的作用是设计蛋白质。”
也就是说,传统方法通常通过改造现有的,而ProteinMPNN不受已有蛋白质结构的限制。
自问自答一把:“自然界没有的蛋白质结构也能被设计出来了吗?”
“是的,例如,他们设计了一种前所未有的纳米环形结构的蛋白质。”
这进展,真是一步一照亮。
第四个台阶
ProGen
ProGen是美国斯坦福大学和千亿市值SaaS巨头企业Salesforce一起研究的。
2023年1月的ProGen,是一种生成式模型(Generative model)。
这点从ProGen算法的名字上能看出来,也能从论文标题里看出来:
《大型语言模型可以跨越不同家族生成功能性蛋白质序列》。
第一,ProGen用于生成不同功能的蛋白质序列,包括酶和抗体。
第二,ProGen可跨越不同蛋白质家族生成功能性蛋白质序列。这意味着它们可以用于开发新的药物和治疗方法。
AlphaFold 2证明大语言模型常用的Transformer架构在蛋白质结构预测中很有效,ProGen则证明了大语言模型在蛋白质设计任务中也可以承担重要角色。
我向于璠提问:为啥大模型能用于生物领域?
这个问题,我请华为于璠博士讲解。
他在华为工作12年,现任华为昇思MindSpore技术总经理。
在MindSpore软件上,部署有计算生物领域套件,这个名为MindSpore SPONGE的是生物计算的分子模拟工具。
基于此工具,他们团队联合昌平实验室等科研机构完成了蛋白质折叠的训练与推理全流程(MEGA-Fold),同时还通过算法创新(MEGA-EvoGen)解决了孤儿序列结构预测的问题,并在全球持续蛋白质结构预测竞赛CAMEO中取得连续三次霸榜的好成绩。
这个团队我跟得比较紧,几乎看着他们一步一步做起来,前情故事收录于《我看见了风暴》一书。
于璠博士告诉我:“ProGen算法把蛋白质看作一种语言。”
这句话不是很好理解,蛋白质和语言,就像生物课和语文课,两者看上去没有关系。
可以换个角度这么想,几十个氨基酸或者几千个氨基酸可以组成一个蛋白质,蛋白质有几亿种。英文字母组成单词,英语语言表达的意思也有上亿种。
大语言模型生成的原理是预测下一个词,简单点说就是成语接龙,只要不断电,机器能一直接下去。当你理解了大语言模型预测下一个词的方法,再把蛋白质看成一种语言。
那预测下一个“字”的“套路”,就能用在蛋白质预测的模型上了。
于博谈道:“ProGen 算法借鉴大语言模型生成文本的原理主要体现在以下两个方面:
第一,将蛋白质结构表示为一个序列,蛋白质结构可以表示为一个氨基酸序列,这与文本中的单词序列类似;
第二,大语言模型学习语言中的上下文关系,并预测下一个单词,这与预测蛋白质结构中的下一个氨基酸原理类似。”
简单讲,ProGen算法的大致步骤如下:1.将蛋白质表示为一个氨基酸序列;2.用模型来预测下一个氨基酸;3.重复步骤2,直到生成完整的蛋白质。
2023年初的ProGen作为一个语言模型,参数规模并不大,只有12亿。对比2022年末,元宇宙公司Meta的模型(ESM-2)有150亿参数,参数大了10倍。紧接着2023中,百图生科也推出了一个又大一个数量级的蛋白质语言模型(xTrimoPGLM),具备1000亿参数。
蛋白质模型规模,快速增长。
第五个台阶
RFdiffusion
第五个台阶还是David Baker(大卫·贝克)实验室的成果迈上去的,他们团队真是高产。
2023年7月,他们实验室拿出了成果RFdiffusion,该模型能够定制化设计蛋白质。这一重要进展,既有潜力,也有挑战。
比如,设计复杂的结合蛋白。
于璠博士的观点认为,大模型的威力并没有完全释放,随着模型通用性能力的提升,生物领域也会受益。
他谈道:“从技术角度,可以把AlphaFold2理解为专有模型,擅长蛋白质结构预测这种单一任务,就好比机器翻译模型,擅长翻译;引入语言模型的成功,代表着一种呼之欲出的趋势,把预训练大模型做好,下游很多生命科学方向的任务都能被统一解决。”
写到这里,我不禁感慨一句,工程蛋白质的野望,不像泡沫,像希望。
肯定有第六个,第七个台阶,
拾阶而上,未来是什么样?
可以看出,黄仁勋对畅想颇为“笃信”。
未来,生物领域的科学发现转变为工程,比如蛋白质发现,变成蛋白质工程。他这种观点,在小范围内引起了一些讨论,但尚未引起广泛关注。
我向周芃提问:会有这么大的需求吗?
周芃博士是RWKV社区的早期贡献者。
RWKV一种新的LLM架构,以四个主要基本参数命名:
Receptance Weighted Key Value(RWKV)。
周芃博士的背景跨越了类脑与大模型。她在美国加州大学圣克鲁斯分校取得博士学位。
比起同学科的博士,她在专注于脑启发式计算、类脑计算之外,又投身于大语言模型事业。她目前在研究将类脑的原理用于创新大模型结构。
改天可有请周芃博士详细解释类脑大模型的实现机理,
这次我想请教她对黄仁勋观点的看法。
她这样告诉我:“今天的计算机产业,规模大,分工细,从芯片到计算机体系结构,从硬件到软件。计算机产业依靠扎实的基础性发明奠定基础。那些半导体奠基人或者说诺贝尔物理学奖获得者的工作居功至伟,是典型的科学工作。而大部分软件从业者所做的相关工作是工程。
黄仁勋迪拜对话中这一小段话的意思是说,生命科学还处在发现生物世界本身规律的阶段,人类还没有进入生命科学蓬勃发展并创造出有巨大影响力且实用的东西的时期;
等到那个时候,绝大部分工作是工程。
打一个类比,生物学还处在发明半导体的时代。”
我接着问周芃博士:“能不能这样理解,未来会有一套计算机硬件、软件、系统、应用,基于生物所启发创造专用,进而再发展出一个生物的工程系统?”
我更进一步地问:“甚至,生物专有芯片,从研究到应用,全套围绕生物,甚至整个计算机软件栈全部都基于生命科学重新设计一套?”
她说:“是的,我认为未来得有这么大的一个产业。”
同时,她也告诉我,她相信未来生物学也会取得计算机产业今天所取得的成就。
我向宋乐提问:您怎么看?
这次,我也和百图生科首席AI科学家,美国佐治亚理工学院计算机学院终身教授宋乐聊了聊。
宋乐教授谈道:“我非常同意黄仁勋说的。”
他补充道:“主要是大规模预训练模型和生成模型让蛋白质设计变得越来越工程。”
他向我描述的未来,包括两个重点:
01
第一点:数字生物模拟软件或AI模型
这种软件可以“模拟”“预测”高度复杂数字生物系统。
例如,在这种软件上,对某种蛋白质的结构可以预测得很准。预测准了之后,才能改造。
有了这种软件,可以模拟,预测和设计蛋白质的结构。
这样的话,便利之处在于,想开展什么工作,先通过软件来“模拟”“预测”。
在这种软件的帮助下,掌握了操控蛋白质的强大工具。
或者说,不限于蛋白质结构,这个软件能对生命科学里面涉及到的属性做模拟,预测,和设计。想用什么属性,都可以。
这种软件是典型的生物领域的基础设施。
就像编辑文本一样,我们可以添加、删除或修改氨基酸来创造新的蛋白质。
类似这种通用蛋白质工程平台,像设计汽车那样,设计软件那样,来设计蛋白质。
02
第二点:从微观向更宏观的尺度前进
目前,我们对蛋白质的理解是从分子微观层面理解生物的分子机理,
未来会对这个生命体的不同的层次进行模拟或者是建模或者预测。
未来,软件会从微观向更宏观的尺度进展。通过这种软件,可从不同尺度观察和模拟生命体。
系统层级越高,模拟越难。
目前的进展集中于分子尺度下。
未来,除了单个分子层面的“模拟”和“预测”,我们将能“看到”越来越多的分子相互作用,细胞,细胞相互作用,组织器官,甚至生物个体层面的“模拟”和“预测”软件或AI模型。
我向宋教授提问:“分子尺度下的生物软件系统大约会在多少年左右发展起来?”
略加思考之后,他给我的答案是:
“5年”。
“我们现在还在起步阶段,很多论文发表在《自然》《科学》杂志上,代表着一种新思想的涌现。当下,模型的预测准确率也需要新的突破。”他补充到。
同时,宋教授认同于璠博士的观点。
未来多种任务统一的通用生物大模型会有更大威力。百图生科做了一个1000亿参数的模型解读蛋白质,融合了蛋白质理解和生成两大类不同任务。
每次,我和宋教授交流,都感觉被前沿信息冲击了一把,如果不仔细思考,很容易理解不透彻。在交谈中,他还多次鼓励我,启发我:“你想象一下……”
引用宋教授的朋友圈里的一句话:“一起用预训练大模型见证生命科学的进化。”
聊了这么多,其实你会发现,于璠博士、周芃博士、宋乐教授,他们三位从某种程度上毫不费力地达成了共识。
我保证他们没有事先“对答案”。
补充一个视角:
DeepMind创始人戴密斯·哈萨比斯(Demis Hassabis)在和外媒 “Endpoint News” 对话(2023年9月26日)时谈到:
公司( Isomorphic Labs)的目标不仅仅是使用 AlphaFold 进行蛋白质结构预测,而是要更进一步,参与整个药物发现的过程。
他提到:“需要做另外6次大的突破 (We need to make another half-dozen big breakthroughs)”.
翻译过来:“距离AI参与整个药物发现过程,还需要6个AlphaFold 级别的重大技术突破。”
也许,有人背后会说:“过度宣传”。
在我看来,Bio Tech的科学家对技术趋势的判断总是非常大胆。
戴密斯·哈萨比斯一向野心勃勃。
也不乏有生物公司想做成“Bio GAFA”。
憧憬建造一个“生物的平行宇宙”,猛一听,简直是像流浪地球一样科幻。
在他们眼中,未来,似乎没有悬念。
同时,我了解到有很多Bio公司一点也不Cloud Tech或者AI Tech。
有一位云厂商的销售老总告诉我,有家基因公司,实力强劲。结果,该公司上云的几行代码,放眼整个公司没有人会写,最后他只好自己上手了,幸亏他有编程背景。
不仅于此,不少生物实验室里的科研人员,每天干着不少类似“保洁大姐”的工作。
而我们这篇文章在大胆畅谈谈“设计蛋白质”“编辑药物”。跨度有点大,是不是在胡扯?
质疑永远有意义,而像我这样的科技记录者和观察者,预判错误是家常便饭。我认为错误与否并不最重要,而是观察和推论的过程里,我有收获,读者也有收获。
我用一句来总结:
“未来的药物,想编辑就编辑。”
对于普通人来说,可用于医疗的工程蛋白质的时代已经越来越近了。
对于万亿市值的科技巨头英伟达来说,黄仁勋所描绘的未来,奔涌着财富的潮水。
面对这样的市场,很可能再造一个新的英伟达。
按照David Baker(大卫·贝克)教授的判断:“如果你能完全按照第一性原理设计蛋白质,你就可以解决当今人类面临的许多问题——在医学方面,也在材料和能源方面。”
当真如此,那便是:
九州同泰,四海升平。
(完)
《我看见了风暴:人工智能基建革命》,
作者:谭婧
更多阅读
长文系列
1. 2023年终盘点:图文大模型编年简史
2. 跳槽去搞国产大模型,收入能涨多少?
3. 大模型下一场战事,为什么是AI Agent?
4. 假如你家大模型还是个二傻子,就不用像llya那样操心AI安全
5. 指令数据:训练大模型的“隐形助力”
6. 对话百度孙珂:想玩好AI Agent,大模型的“外挂”生意怎么做?
漫画系列
1. 搞掂大模型,如何榨干每一滴算力?
2. 大模型用于腾讯广告,难在哪?
3. 卷大模型开源,正确姿势是什么?
4. 腾讯混元大模型“干”广告创意:那我走,都让AI来?