面壁CEO李大海:物理世界要实现AGI,一定是通过端侧智能
未来物理世界要实现 AGI,一定是通过端侧智能。
面壁智能 CEO 兼联合创始人李大海在第三届中国 AIGC 产业大会上分享了他们的经验认知。

作为当前端侧智能的领跑者,面壁智能在过去一段时间以来可谓是进展频频。
他们发布了端侧模型 MiniCPM 驱动的面壁小钢炮超级助手 cpmGO,MiniCPM 也逐步开拓了手机、具身智能、AIPC、智能可穿戴设备等几个主流落地方向。
未来他们的愿景是让每一个设备都具备智能。至于如何实现?李大海在会上分享了背后的方法论。
为了完整体现李大海的思考,在不改变原意的基础上,量子位对演讲内容进行了编辑整理,希望能给你带来更多启发。
中国 AIGC 产业峰会是由量子位主办的 AI 领域前沿峰会,20 余位产业代表与会讨论。线下参会观众超千人,线上直播观众 320 万 +,累计曝光 2000 万 +。
话题要点
DeepSeek 的成功,底层在于三个 " 密度 " 的极致:团队密度、组织密度、高资源密度。
我们观察到大模型 " 知识密度 " 是智能的核心指标,而高知识密度模型在端上最有价值。
大模型知识密度可以跟芯片制程做类比,我们知道芯片的制程,就是在每平方厘米下晶体管的数量,可反映出计算能力的强弱。而大模型知识密度越高,它的智能就越强。
未来物理世界实现 AGI,一定是通过端侧智能。因为只有把大脑部署在设备的终端上,把大脑部署在机器人的脑子里面,它才能够真的去做最灵敏的感知,去做最及时的决策,才能做出最完美的应对。
以下为李大海演讲全文:
DeepSeek 成功最底层因素是三个 " 密度 "
朋友们,大家下午好。我今天穿的 T 恤是我们公司面壁智能的文化衫,面壁这个名字就来源于《三体》,我们公司的三体迷把公司企业文化都 " 三体化 " 了,我们员工手册的名字就叫 " 这是面壁计划的一部分 "。
今天很高兴能够在这里跟大家汇报面壁过去一年多的工作,自从参与创立面壁,开始在大模型这个赛道里长跑,真的非常有意思。因为才短短两年多,我们经历了许多的 " 非共识 ",其中很多的 " 非共识 " 变成了共识,然后又涌现出更多的非共识。整个公司的发展过程,我们不断地在更新自己的认知,进行迭代。两年的时间,像是过了十几年。

今年有一个绕不开的话题 DeepSeek。DeepSeek 的成功,有着天时地利人和的多重因素,也有很多值得我们重点借鉴的先进经验,我们总结下来有三个方面的 " 高密度 ":
第一,团队密度。能够在大模型领域突出重围的公司和组织,必须有足够高的人才密度,组建一支极客式的优秀团队,聚焦在大模型的底层技术上,进行深入地钻研。
第二,组织密度。组织密度讲的是组织目标的一致性,我用另外一个词叫 " 组织熵 "。当一个组织里每个人的目标都不一样时,是熵最大的状态,那是最不理想的状态。最理想状态是上下一心,所有人目标一致,这样整个组织间协作非常高效。这是 " 足够高的组织密度 "。
第三,高资源密度。不仅要给创新留出充足的研发预算,并且要保障团队能够非常长时间地聚焦于技术的钻研,持续进行技术的积累。
维持三个密度都足够高,才有可能在大模型的底层技术上有所突破。
DeepSeek 是在云侧,践行非常高效的大模型组织;而面壁在端侧,也在开展十分令人兴奋的高效故事。
我们对大模型 " 知识密度 " 的洞察
面壁团队是从 2019 年开始 all in 大模型,2022 年 8 月份公司正式成立,而后在 2023 年 9 月份就发布了第一个千亿级的 GPT-3.5 水平的模型,拿到了网信办第二批安全备案。
到了 2023 年年底的时候,看到大模型同质化越来越严重,我们开始思考面壁的核心竞争力是什么,差异点是什么。

因为从团队创立之初,高效就是我们骨子里的基因。早期还因为我们有很多大模型推理加速的工作一段时间被错归类为 infra 公司…… 高效这件事,好像天然就是我们骨子里信奉的东西,也是更加比别人能做好的事情。那么那段时间,我们做了 " 模型风洞 " 试验方面的创新性探索,发现我们的模型总是同等参数、性能更强。
大模型高效背后的核心指标,正是知识密度,并且我们把对大模型成长规律的观察总结为 " 密度定律 "。
我们发现,大模型知识密度每 3.3 个月翻一番。大模型知识密度可以跟芯片的制程做类比,我们知道芯片的制程,就是计算密度在每平方厘米下有多少个晶体电子管的数量,它的电路有多少,可反映出就说明了它的计算能力的强弱有多少,这个密度越高,说明制程越高。而大模型的知识密度就越高,它的智能就越强。
当我们聚焦去做高知识密度模型,并且发现落在端侧具备格外的优势。因为端侧的算力是有限的,内存也是有限的,功耗也是有限的,这三个限制条件下,天生是带着镣铐跳舞,知识密度高,效果才会好。
未来物理世界实现 AGI,一定是通过端侧智能
过去一年我们发布了九个端侧模型,在今年 1 月份的时候发布了全球第一个端侧全模态的模型,大概是 8B 大小的模型,这个模型能流畅运行在 iPad 上,可以实时流式的实时看,持续听,自然说,并且 " 看听说 " 的水平从多模态角度上达到了 GPT-4o 的水平,虽然解决复杂的逻辑问题层面上,还是跟云端模型有区别,但是在多模态能力上已经非常强。
这里给大家播放一个视频,大家可以感受一下。
从这个简单的例子里面看到,全模态大模型可以同时接收语音跟视觉的信号,基于语音跟视觉去感知周围的环境,同时以声音或者文字输出自己的答案。而将这样的全模态大模型部署在汽车、机器人等这样的设备上,就可以让汽车、机器人这样的设备成为一个能够同时去看、听、说的设备。
基于我们模型的工作,在今年 3 月份的时候,发布了纯端侧模型驱动的面壁小钢炮超级助手产品,首先在汽车上落地。
汽车是我们端侧模型落地的理想场景,因为汽车作为超级终端 " 智能体 " 来说是一种成熟的 " 具身智能 ",我们认为在汽车上有非常好的发展空间。

面壁小钢炮超级助手可以在车上提供目前两种特别重要的能力。
第一个是端上不依赖网络的全天候指令助手,用户在车上所有的指令,都可以在端侧智能上做到及时响应。
第二是通过舱内舱外的摄像头、麦克风去感觉舱外环境和舱内车乘人员的指令和状态,根据这个感知去主动关怀他们。
这是一个感知、决策、执行三位一体的模型。几年以前智能驾驶就在提这个概念,端到端的模型给行业带来一些新的可能性。
通过摄像头感知舱外舱内的环境,在端侧有什么特别优势呢?
首先,汽车作为一个移动客厅,网络情况是不可能 100% 稳定可靠的。端侧方案可以不受网络的限制,随时随地做到感知。
第二,如果在云端,完成舱内舱外视觉信息视频流的感知回传,可能推理的成本不算高,但是高清视频流实时传输的带宽成本很高,其次背后也有大量的隐私信息,因此不仅成本高,还有很多隐私暴露的风险。我们纯端侧能够在隐私和成本上有很好的优势。
这个视频可以看到,纯端侧的面壁小钢炮可以陪大家走遍天涯海角,因为它不受网络的束缚,它是全天候的。
这个是我们从执行层面上的 GUI Agent 产品。我们既然已经有了端侧模型,我们就可以通过端侧去感知到屏幕上发生的行为,就能够帮助用户完成这些任务,完成这些任务的基础是像用户一样理解这些屏幕,通过这些方式本质上就能够像人一样,所以能够有很强的泛化性。同时因为是在端侧,所以用户屏幕上的信息是不会被上传到云端,隐私绝对有保证。
我也想借这个时间跟大家同步一下我们的认知。
为什么面壁过了两年,一直现在云端发展依然如火如荼的情况下,我们仍然非常聚焦于地做端侧。因为端侧是我们的信仰,我们相信未来端侧是有非常广阔的天地。同时我们也相信未来在物理世界要去实现 AGI,一定要通过端侧智能。因为只有把大脑部署在设备的终端上,把大脑部署在机器人的指挥中枢,它才能够有最灵敏的感知,去做最及时的决策,才能做出最完美的应对,这是一个非常基础的事情。
目前我们的端侧模型,已经在汽车、部分机器人的场景、手机,还有一些新的智能终端,比如说离线的翻译机等设备上落地。
我们的愿景是要让每一个设备都具备智能。
好的,我的分享就到这里,谢谢大家!
— 完 —
量子位 AI 主题策划正在征集中!欢迎参与专题365 行 AI 落地方案,一千零一个 AI 应用,或与我们分享你在寻找的 AI 产品,或发现的AI 新动向。
也欢迎你加入量子位每日 AI 交流群,一起来畅聊 AI 吧~
一键关注 点亮星标
科技前沿进展每日见
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!