读了Ben Thompson对 Nat Friedman 和 Daniel Gross的采访这篇文章,挺有趣。
先说最有趣的几个地方:
(恰好,昨天也看到有关小扎的这样一个描述:在硅谷,能够在科技创新领域取得卓越成就的天才,常常是内向者。芝加哥的一家咨询公司ghSMART就曾专门耗费10年时间,对超过2000名CEO展开了性格特征分析,最终得出结论也印证了这一点。来自硅谷的一份心理诊断报告也显示,被外界冠以“天才病”的孤独症谱系障碍,在寻常人群中的发病率约为万分之七,但而在硅谷,这项比例被提高了整整42倍。扎克伯格就曾在采访中表示,自己偏爱独处,可以自己一个人闷在屋子里三天不睡觉。)有趣的观点:有关宗教和AI,“我在想宗教改革,因为我认为在 1517 年,马丁·路德写了 95 条论纲,通过印刷术,他设法创立了一种在欧洲传播的新宗教。在某种程度上,每个人都在想着,试图将 ChatGPT 与印刷术进行类比,但实际上它们起到的作用几乎相反。……整个过程都是在相反的方向上进行的,印刷术是一种通过书籍传播信息、说服人们做事的技术(the printing press was a technology to disseminate information through a book basically and convince people to do things),而大语言模型则是一种「反书籍」技术(the kind of antibook is the LLM agent),它非常简洁地总结了事物。如果确实是这样的话,它能唤醒人们意识到他们长期以来一直是宗教的同谋,因为它非常简洁地为你总结了这些事情,并将所有事物放在隐藏空间中,突然你意识到,「等一下,这个素食主义概念与另一个概念息息相关。」在某种程度上,大语言模型技术是一种反向的宗教改革(a kind of Reformation in reverse),每个人都突然意识到了有很多事情是错误的。”两段很搞笑的话语:
看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标(MMLU number, 大规模多任务语言理解基准)是很有趣的,而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数,而这是目前最重要的推理评估(the premier reasoning eval)之一。
在苹果公司,有一个有趣的说法是,「硬件人员认为一切都是软件问题。而软件人员认为一切都是硬件问题。」
当然整个谈话都很有趣,很多有趣的观点,摘录一些如下:
关于维苏威火山碳化古卷挑战:似乎几乎没有人知道这件事,知道有成千上万卷无法打开的古代卷轴,我们想,也许我们可以激励 1000 个在家里用笔记本电脑的人去破解它,而这基本上就是目前发生的事情
在文本中,也存在着分布的梯度,任何预训练过模型的人都会告诉你,大部分文本是无用的(there’s a gradient in a distribution and anyone pre-training a model will tell you that most of the text is useless),实际上,文本或视频中非常高质量的 tokens 数量很少。在音乐中可能也是如此。这里存在一个有趣的帕累托分布(Pareto distribution)
transformer 架构的神奇之处在于即使数据质量很糟糕,它也能工作。……但我认为人们忘记了,如果数据是高质量的,它的效果只会更好。所以,真正的奇迹是,即使数据不好,它也勉强能工作,但如果数据好得多,它的效果要好得多。
你会使用 Sora 类型的模型来模拟飞机机翼如何工作的吗(Sora-type models to model an aircraft wing)?我非常怀疑这一点。但是,实际上,对于你所说的这一点,在涉及到虚拟现实的例子中是一个无关紧要的问题。当你在虚拟现实中或在任何娱乐场景中时,实际上没有人关心空气在机翼上的物理情况是否完美贴合现实。如果你想逐帧分析今天电影中 CGI 的物理情况,你可能会发现各种各样的漏洞,但实际上这并不重要。对我来说,这才是重要的。这些模型的「物理学」已经足够好了,而足够好的「物理学」在很多情况下都足够用了。
文本在逻辑上更密集,但视频更大量(Text is more logically dense, but videos are more)
我的一个看法是,我们将进入一个更加有主动代理能力的模型世界(a more agentic world of models),在这个世界中,我们现在拥有的东西都还只是处于「寒武纪生物大爆炸之前」的时期
AI 公司在训练模型时经历了两个周期,他们相对较不关心利润空间,他们只想要最好的 GPU,他们不想冒任何风险。你花了 3 亿美元,你只是希望你的模型能够「正常输出」(you just want your model to「tape out」properly),然后如果你找到产品市场契合点 ( product market fit,也就是有人为你的产品买单并且有机增长 ),你就会自然进入推理时代。
台积电在日本的建设非常顺利,这与亚利桑那州的情况正好相反。他们建立的 28 纳米工厂主要集中在服务汽车公司,因为这是一个明确的市场需求。但我认为台积电从中得到的启示是:「如果我们要持续存在下去,如果台湾垮台或受到攻击,那么日本就是一个更好的文化适应环境,而且日本在制造方面的卓越表现是被人们认可和熟知的。」
如果人工智能爆发真的成为现实,也许 2030 年代就又是日本的十年,如果他们真的能够制造所有这些产业链组件,那些由于各种原因必须从台湾转移出去的。
芯片制造过去是劳动密集型的,比你想象的更加劳动密集。……但是现在,随着自动化水平的提高和相对劳动成本的变化,更多地涉及到隐性知识和知道如何使机器工作起来,而不是实际的劳动人力成本。芯片制造的劳动成分变得更加高端(the labor component of chips has moved much more high-end),更远离低成本的工作。日本重新成为制造业的非常合适的地方,这在过去的 20 年里并不是这样。
但 Meta 收购了所有这些芯片订单,所以他们在其他所有人之前买进了市场上所有的 GPU,他们上个季度披露的庞大计算集群就是因为那个特定季度的投资。在股市抛售 Meta 的那个季度,实际上是他们未来五年中最重要的投资之一。……别跟扎克伯格对赌!……时机也很关键吧?那正好是在 ChatGPT 推出之前的一个月。所以,他们在有任何竞争出现之前就完成了所有的 GPU 购买。我敢肯定,他们支付的价格比现在任何人支付的价格都要低得多。
我觉得 Gemini 1.5 版本是令人惊讶的,并且像 Groq 这样的验证方式也扩展了我对这些模型的预期。因为这个想法是,「看,只需把你想要的东西全部丢到上下文窗口里,你不需要构建某种 RAG(Retrieval-Augmented Generation 检索增强生成)系统。你不需要弄清楚什么放进去,什么不放进去。」对我来说,这种便利性,是的,速度可能相对较慢,但这在某种程度上是一个巨大的改变,你可以做一些愚蠢的事情。我链接了一条推特,有人在《了不起的盖茨比》(Great Gatsby)中插入了一行文字,并看看它能否找到。就像,「谁会做这种事情呢 ( Who’s going to ever do that)」。「谁会做这种事情呢?」这句话定义了最终会成为大事件的新产品,而且我觉得这种可能性,对我来说,这种可能性—是的,从小上下文窗口到大上下文窗口的程度是有差异的,但对我来说,1.5 版本跨越了,它成为了一个巨大的改变,你可以随心所欲地做任何你想做的事情。……Gemini 让普通人可以微调一个模型(This lets normal people fine-tune a model),你实际上什么都不用做,只是把你所有的东西丢进去,它会自己解决。
对长语境上下文的押注非常重要(the bet on long context is very important),我们认为,不仅能检索出海量信息,还能对海量信息进行推理,这是一种超级能力,我的意思是,这在一定程度上是人类的能力。我们人类有情景记忆(episodic memory)和程序性记忆 ( procedural memory ),能够随着时间的推移保留技能或记忆,并且一直存在一个问题,「人工智能模型如何做到这一点?它们将如何发展情景或程序性记忆?」 在上下文语境中,你可以做到这两点。
在谈论分片时,我记得他们是在讨论用在训练。但似乎他们也在推理的情况下使用分片,他们有这种分布工作负载的能力,不仅仅是跨芯片、跨集群,而且至少在理论上,也跨数据中心(not just across chips, not just across clusters, but at least in theory, across data centers),这带来了巨大的挑战……谷歌的网络能力(networking capabilities)一直以来都是众所周知的,但我不确定人们是否意识到这种优势如何能应用在解决这些问题上
今天的 ChatGPT,甚至是 Gemini,这些人工智能模型更接近于人们(哼唱曲子时)的押韵而不是在思考(these models are a little bit closer to someone rhyming and not thinking)。……主动推理(active reasoning)是我认为许多人正在为之努力的重要事情,是的,我们已经看到了一些相当引人注目的东西。一切都还处于非常早期的阶段,但如果说人工智能领域今年有一个重大突破的话(if there’s a big breakthrough of the year),如果我必须猜测的话,那不会是上下文窗口( context window),而是非常大的上下文与主动推理和自主思考的结合(very large context combined with active reasoning and thinking)。
我认为如果有人能够创造一种能够像人类一样,在他们选择的任何领域中主动推理,以及主动思考问题的东西(if someone had something that had active reasoning and actively thought-through problems the way humans do in whatever domain they choose),那么他们就能领先于别人。
在苹果公司,有一个有趣的说法是,「硬件人员认为一切都是软件问题。而软件人员认为一切都是硬件问题。」
关于Gemini 推出后的灾难:我们从谷歌的一些员工那里听到,这些模型本身,这不太可能是模型训练中的一个深层问题,而更像是后来某个人在产品化过程中做出的决定。因此,可能存在一套系统提示或模板(a set of system prompts or templates),或者类似的东西,强加了一组规则和指导方针给模型,而原始的内部模型并没有做成这个样子。
在我的脑海中,我总是想象成,你在试图在床上拉一张非常紧的床单,那就是你的嵌入空间(embedding space),你把床单拉到右上角,底部左角就会弹出,你这样做,然后右上角也会弹出,这就是你要做的事情。你试图将这个高维空间对齐到一组特定的数学值(align this high dimensional space to a particular set of mathematical values),但在某个时候你永远不会得到一个完美的答案或零损失。所以,顺序很重要,传统上微调更多是在预训练的最后阶段进行的。
如果在模型训练最后阶段输入了特定的一小组信念,它就会无缝地扩展到整个集合。
无论 Gemini 或者其他的模型发生了什么,我们都会观察到这些模型,它们都包含在一个潜在地下的「荣格平面」上(a kind of subterranean Jungian plane),这些平面会自动地调整彼此。模型没有做错任何事情,它只是反映了我们人类的所作所为,结果表明这些东西会物以类聚(they cluster into similar buckets)。
我在想宗教改革,因为我认为在 1517 年,马丁·路德写了 95 条论纲,通过印刷术,他设法创立了一种在欧洲传播的新宗教。在某种程度上,每个人都在想着,试图将 ChatGPT 与印刷术进行类比,但实际上它们起到的作用几乎相反。……整个过程都是在相反的方向上进行的,印刷术是一种通过书籍传播信息、说服人们做事的技术(the printing press was a technology to disseminate information through a book basically and convince people to do things),而大语言模型则是一种「反书籍」技术(the kind of antibook is the LLM agent),它非常简洁地总结了事物。如果确实是这样的话,它能唤醒人们意识到他们长期以来一直是宗教的同谋,因为它非常简洁地为你总结了这些事情,并将所有事物放在隐藏空间中,突然你意识到,「等一下,这个素食主义概念与另一个概念息息相关。」在某种程度上,大语言模型技术是一种反向的宗教改革(a kind of Reformation in reverse),每个人都突然意识到了有很多事情是错误的。
微调一个模型与制作网站的漂亮登陆页一样,是一种审美艺术(fine-tuning a model is just as aesthetic an art as making a beautiful landing page for your website)。
Mistral,一个拥有法国文化和法国风格产品的法国 AI 创业公司,能够生产出一个,值得称赞的模型,我是说,它可能不是最聪明的模型,但至少在我的个人测试中,它相对循规蹈矩,它的政治语气也非常中立,这也应该不足为奇。
关于谷歌现在该怎么办:他们缺少一个主编(a missing editor),缺少一个产品主编(a missing product editor),缺少一个有品味和判断力的人,一个在公司中有权利否决任何人并确保正确事情的人。我认为领导层的改变必须发生,文化是公司中最难改变的一种。你可以进行战略变更,产品变更,运营变更。文化变革是最困难的,只有通过领导力才能实现。我们要么需要看到谷歌领导层有明显不同的行为改变,要么需要看到完全不同的领导者。
AI 是一个令人兴奋的事物,因为它让一些原本难以注意到或容易隐藏的事情变得清晰可见。在过去的一周里,AI 让谷歌的一些文化方面的问题变得非常明晰可见
Mistral 具有初创公司的敏捷性,我认为这点很重要。也许他们还有一些「有益的」限制。他们只有有限的资本,只有有限的计算资源,所以他们会着手解决这些约束条件。
我们之前谈到的 Mistral 非常关心的一件事情就是数据的质量,我们知道他们非常努力地清理他们的训练数据,并且通过这样做有效地获得了 “计算倍增器” ( a compute multiplier ),从而获得了 “质量倍增器” ( a quality multiplier )。但现在他们的模型表现远远超过了他们的权重,感觉几乎像是一个魔术。他们的新 Mistral 大型模型在评估中表现非常出色,他们还没有完全透露是什么,也许是 Mistral 中型模型的混合专家模型之类的东西(MOE mixture of Mistral mediums)。
看到所有这些公司的 CEO 都在吹嘘他们的 MMLU 参数指标(MMLU number, 大规模多任务语言理解基准)是很有趣的,而 MMLU 是丹·亨德里克斯 ( Dan Hendrycks ) 在大学本科时自己开发的一个评估。所以你基本上是看到万亿美元公司的 CEO 在谈论他们在一个本科生推出的测试中的分数,而这是目前最重要的推理评估(the premier reasoning eval)之一。
有一项进展似乎落后得最远,那就是对模型的 “评估”(evals)。
安德烈·卡帕西(Andrej Karpathy)曾经告诉我们,他唯一信任的模型评估是 Twitter 上的评估。在模型发布后,你可以在几周后检查 Twitter 上的用户情绪,看人们是否喜欢它。但每个公司的 CEO 都在训练这些大模型时,说:「我们必须站在榜单榜首。」顺便问一下,这个榜单是什么?这个榜单是一些本科生凑在一起弄出来的东西,是伯克利的人组织的 Chatbot Arena。