大家好,我今天分享的主题是《大模型的下半场:Agent、多模态、通用机器人》
大模型上半场,很多从业者对于技术、产品以及商业化做了很多探讨,各种各样的模型也都已经出来了。
下半场,大家就要动真格了,所以接下来我分3个部分来讲:Agent;多模态;通用机器人。
1.共识极速达成,全球开卷
中国所有的人,不管是 CEO 还是产品经理,都有一种极度的焦虑感,觉得大模型要颠覆自己公司,或者颠覆自己的职业。全世界非常卷,连美国这种躺平的国家,很多巨头都非常努力在做产品或者转型。
我们快速回忆一下大模型发展的时间线:
2020年6月,GPT-3 的出现是转折点。因为在GPT-3 之前,所有的人工智能的技术都是专用系统或者专用任务的,模型不通用。
当时,GPT-3 是第一个让我们觉得它是有可能做成通用人工智能的一个系统。我可能是中国最早一批关注到 GPT-3的人,当时极客公园采访我时,我就说“GPT-3 是暴力美学的一次胜利”。
2022年12月,ChatGPT 发布。但其实 GPT-3 跟 ChatGPT 在原理上、在模型结构上,没有任何区别,只不过 GPT-3强调的是Few shot,每次你要问 GPT-3 一个问题,你先得举几个例子,然后再去问它答案。
比如,你要先告诉它“1 + 1 = 2”,再问它5 + 8等于多少,它才能回答。
很显然,这只有硅谷的极客才能去用,普通人不可能用这么一个系统。所以 ChatGPT 做的一个事情就是把Few shot(小样本)变成 Zero shot(零样本),你可以直接问它 5+8 等于多少,而不用举例子。
通过Supervised Fine-tuning(监督微调),使得这个模型一下子从硅谷这种极客的圈子进入到大众。这是 ChatGPT在技术上最大的一个贡献。
另外,让大家觉得通用人工智能一下子变得可能了,整个社会对这个事情一下子热度很高。
2023年3月,GPT-4发布,它让我们看到了AGI的火花。
GPT-4演示了多模态,但今天我们也看到ChatGPT没有在多模态上做出很多事情。
但之后发布的AutoGPT,激发了大家对Agent落地的热情。因为它可以变成一个自主规划,自主推理,自主执行任务的一个系统。
2023年7月,出现了另外一个系统RT-2。
很多人觉得它跟大模型没有什么关系,但我认为这个非常大的一个革命,它让我们看到了大语言模型的跨模态知识迁移以及通用机器人的可能。
这是在技术层面,我们再看看产业层面:
OpenAI 跟 Microsoft一拍即合,出尽风头,但是我觉得长期来说,这种合作可能不一定持久。
在ChatGPT之前,我们都觉得Google是AI的王者。但是ChatGPT之后,你就感觉 Google 怎么这么不能打,完全连自信心都没有了。之后,我6月份又去谷歌聊天,发现他们重新找到了信心,而且很多产品有了规划。
从竞争上,Meta的人才非常厉害,但过去几年,扎克伯格陷入在元宇宙的深坑,当 ChatGPT 发布后,立马All in Llama,成为开源大模型的扛把子。
而在中国,大家都知道就是百模大战,我有一句话叫“一切都是熟悉的配方和味道”。
2.上半场的共识与非共识:规模、开源、通用
接下来我分享几个共识和非共识。
① 超大模型(万亿)VS 普通大模型(数百亿):各有使命
我们应该把模型分成两大类,一类是万亿级别的超大模型,一类是数百亿级别的普通大模型。
超大模型的使命是探索能力天花板,普通大模型更重要的使命是承载落地。
因为万亿级别的模型真正用到推理或者产品里,成本很高,速度也很慢,甚至产生智能幻觉。
而世界上大部分的创业者,都只能做所谓的大模型,没法做超大规模的模型,因为成本投入太大。
② 开源 VS 闭源大模型:永不结束的战争
在 2 月份的时候,我们都觉得大模型的壁垒好高。如果你能做出一个模型,你在中国就很牛。
但是到3月份、4月份的时候,就有了开源大模型。其实,我觉得是因为共识太快了,当所有人、所有公司都涌进这个地方,这种技术的壁垒很快会被打穿。
所以,有闭源,就必然有开源,性能会竞相追赶,不存在闭源一直碾压开源的可能。
但很多人觉得基于开源做模型、做应用,就没有壁垒、投入很低?
这完全是错误的认知,无论是用开源,还是闭源,从零开始做,从能力层面没有绝对性的区别。
因为你也要基于开源做预训练、强化学习、Influence(影响)优化、清洗数据等等,它只是降低了冷启动的门槛。
最后,如果你真的要做一个性能达到业界领先水平的模型,以及应用,还是需要花很多精力。
③ 通用 VS 垂直大模型:各尽其用
很多人一说大模型,就觉得要超级通用。但是到今天去看,第一,很多事情还是不通用。
第二,在实际应用中,你没必要那么通用。
比如,你要做一个大模型用来设计芯片,你这个芯片设计的大模型,就完全没必要回答娱乐明星的八卦。
说到垂直,很多人说有垂直行业大模型。但我觉得不存在垂直行业大模型。
比如金融行业,它的工种是非常分散的,有财务、法务、人事等等,那今天的大模型没法完成所有工种的工作。
所以,大模型真正在落地的时候,我们应该想的是代替哪一个具象的工种。比如我代替的就是前台解说员,或者外呼、分析师。
这才是比较容易落地,投入也比较可控的情况。
④ 算力是一种消耗品,本身不构成壁垒
中国存在一种对算力的无限崇拜。
如果你去跟 OpenAI 的人聊,你说你们到底有什么秘方,为什么做得这么好?他就告诉你说,我们就是规模大。
但绝大部分公司在“暴力美学”上走不下去,因为一年可能需要 50 亿美金~100 亿美金的算力投入,你怎么投?
所以说,算力的壁垒,本质上是钱的壁垒。
很多投资跟我说某个公司很牛逼,我说为啥牛逼?他说,这个公司能买到显卡。
我就觉得很好笑,科技公司的竞争力什么时候变成了能从渠道买到显卡。
甚至有人说,我看这个人做大模型不靠谱,我说为啥不靠谱?他说,他连显卡的渠道都搞不定。
我觉得算力就是一种消耗品,大家还是要保持理性,不要头脑发热就建立一个算力中心,因为你长期运营效率很难超越云巨头。
⑤ 比模型和算力更靠谱的壁垒,是数据飞轮
数据飞轮很难,但一旦建立是比模型和算力更靠谱的壁垒。但是大家都很容易获取的数据不是壁垒,用户在自己产品中交互沉淀的数据才是壁垒。比如你刷抖音,他会根据你的动作,调整下一次的推荐排序。
所以,大家要想办法将数据与自己的产品相结合,这才是数据飞轮的价值。
⑥ 算法架构:要关注新的架构,但不要赌新的架构
现有架构(Transformer+GPT+NTP),很多公司觉得不行,但我觉得短期(三年内)很难有新架构超越现有架构。
因为这半年所有的人都围绕这个东西做优化,它的天花板也很高了,你要超越这个已经被优化到极致的架构模型,是非常难的。
但长期来说,量变引起质变,新架构超越现有架构是大概率的。
3.ChatGPT是工业革命级别的革新吗?
很多人说 ChatGPT代表了工业革命的革新,大家都想从过去找到一些规律,思考这个事情到底有多大,对未来的影响是什么样子的?
所以2 月份的时候,我们非常激进,但是今天再回过来看,可能有些事情是过于乐观。
我认为 ChatGPT 确实带来了通用人工智能的可能性,但是它要怎么实现,我们还是不知道。
如果你认为它是一个工业革新的话,必将革新各行各业。
但是今天我觉得很大一个问题是现在ChatGPT的纯文本以及不可靠性,只适合不是mission critical(关键任务)的内容创作或泛娱乐应用。
我刚才说幻觉本质就是智能,如果说你要去掉幻觉,你就不会有智能,所以这是一个悖论,它只能降低,不可能完全把它干掉。
所以,如果只是文本以及加上这种幻觉,应用形态是非常有限的。
如果你现在每天用大模型就是聊聊天、问问百科,ChatGPT 是没有办法革新各行各业的。
如果 ChatGPT只能文本应用的话,那大概率是一场巨大无比的泡沫。
所以,如果真的要革新各行各业,在语言模型基础之上,还要有Agent和多模态,这决定了这场革命的真实性。
1.RT-2 让我们看到通用机器人的希望
2023年7月28日,谷歌 DeepMind 宣布推出RT-2:全球第一个控制机器人的视觉 - 语言 - 动作(VLA)模型,机器人也能直接像ChatGPT一样操纵。
比如,你说把草莓放在跟它相似的水果盆子里,它就知道放在哪个盆子里,它知道苹果和草莓是两回事。
这是一个革命性的东西,它代表了一种大语言模型的知识迁移的能力,从互联网上学到的知识,可以迁移到一个非常具象的机器人的动作里。
如果你要训练一个机器人系统,你需要专门收集这个机械操作各种物体的数据,比如说拿起放下这些动作的数据。但是,假设它学会了拿苹果,然后换成香蕉,如果你的训练数据里没有这个东西,它可能就不会了。
有了 GPT 以后,因为先有一个语言模型,它已经知道苹果、梨子、香蕉,即使机器人的训练数据里没看到苹果,但是也可以做这个事情。
这就是知识的迁移,能力可以泛化到新对象、新环境和新任务。
而且,RT -2系列很有意思,它基本上每几个月迭代一次。2022年12月发布了RT-1,2023年3月发布了PaLM-E,2023年7月发布了RT-2。
你可以想象,它会像GPT一样,越来越通用,甚至可以有多个机器人协作。
2.Agent,全村的希望?
Agent,强调的是具有自主想法,自主规划去完成一个任务。我们可以理解成自动驾驶。
前面提到 ChatGPT 最终要产生各行各业的应用的话,一定是要通过Agent或者Copilot的方式去落地。
比如,在场景里面落地,每一个场景都有独特的东西,这个时候,你这个Agent需要有很强的对环境的动态的适配能力。
如果不能自动适配,每一个环境,每一个场景都要去做定制,商业模式都是很糟糕的。
但Agent能不能成功还是有很多不确定性,第一,它要求有很强的推理能力、规划能力;第二,它对环境有动态的适配能力。
好的方面是,我们人类历史上没有出现多Agent系统相互协作。
人类是通过协作,使得整个社会高度发达。AI 也是一样的,当 AI 能够讨论、进化、博弈,这会超越所有人的想象。
刚才说RT-2看起来是一个机器人,但其实它本身也是个Agent,因为机器人也是自己去做规划,去做动作,完成任务。
所以,原理上一致,工具箱也是一致的,遇到的问题也都是幻觉问题。
现在 ChatGPT 就是一个纯文本的应用,通过文本的形式告诉 ChatGPT 这里不行,那里行。这些东西都是非常单一的反馈,但是真正的物理事件,比如我走到台阶时,我就知道会塌空,这是环境给我的反馈,那我就不能再往前走了,否则我会倒下去。这种东西涉及到触觉,它是一个多模态的反馈。
其实 AI 跟人是很相似的,无论是输入,还是输出,真正要落地都是需要多模态的信号才能够做得好。
刚才多次提到幻觉,这种多模态的可学习的Agent能够对环境自动适配,这可能是解决幻觉的一种方式。
3.多模态是c位
在今年2 月份的时候,我跟很多人聊多模态,当时觉得多模态可有可无。我们觉得语言是一个认知的问题。
今天回过来看,多模态是非常重要的。
因为Agent的输入输出都依赖于多模态,没有多模态,就没有Agent。
多模态是一种Grounding(基础训练),让语言构建的虚拟世界和物理世界连接起来,也是接地气的有效途径,可以降低大语言模型的幻觉。
大语言模型不只是一个语言模型,更是一个认知模型。有了好的认知模型,只要加入少量数据就能有多模态能力(比如视觉、听觉、动作)。所以,大语言模型是智能的核心和基础。
Agent证明了我们可以将大模型在互联网上学到海量的知识,迁移到机器人的具象应用里,大幅降低对机器人训练数据的要求,并且符合人类认知习惯,可以更好地认知与完成复杂任务。
4.巨头共识内卷之下,创业公司还能怎么玩?
我觉得纯粹的做模型,在中国会很艰难的,不管你的模型多厉害,多少人用,其本身商业模式还是比较艰难的,可能也没有什么壁垒。如果能有自己的应用场景和模型,并形成数据飞轮效应,那是最好的壁垒。
所以,要问自己一个思考问题:我为什么要拥有自己的大模型?
如果你找不到这样的理由,你做模型就是在浪费钱,因为开源的模型可能比你投很多钱做模型训练要好。但是如果你能找到一个理由,确实需要有自己的模型,这个是很有价值的。
5.AIGC新商业模式:ToPC/ToSMB
以前的商业模式分为两种:To C和To B。
互联网公司一般是To C,获取海量流量后通过广告变现,羊毛出在猪身上。
AI公司一般是To B,服务大客户,很多蜕变成系统集成商(SI),最终变成亏钱的高级人力外包。
但在大模型时代,会带来两种新的商业模式:To PC(professional consumer),专业个人;To SMB(small and media business),中小型企业。
AI 公司可以服务SMB或者PC。To PC可以避免传统To B 的项目制,也可以避免跟 To C 互联网巨头竞争停止增长的流量。
但To C需要客单价足够平民化(年千元或万元级别),产品体验足够闭环简单,真正为用户提升效率或创收。
出门问问围绕内容创作者做了各种各样的 AIGC 应用,无论是配音,还是写文案,还是生成图片、生成视频。
比如,AI 配音助手魔音工坊、AI 数字人平台奇妙元、AI 写作助手奇妙文、AI 绘画助手言之画。
通过运用这些AI工具,以前五六个人用一个星期才能做出一个视频,现在一个人3个小时就可以做出质量还不错的视频。
大模型上半场,大家都很慌,每天学这个、学那个,没有一个主心的灵魂。虽然很忙,但其实每天处于一种很慌乱的状态。
下半场,很多人需要找到自己的一个灵魂,比如你到底要做什么?你最后希望建立什么样的壁垒?你希望建立什么样的商业模式?
我的演讲到此结束,谢谢大家。 |