多模态成2024 WAIC关键词之一 对话岩芯数智CEO刘凡平:让每个设备都拥有个性化的智能

频道:科技创业 日期: 浏览:3408

作为全球人工智能领域最具影响力的行业盛会之一,世界人工智能大会(以下简称“WAIC”)可以被视为观察人工智能发展的一个窗口。

WAIC 2024刚刚落幕,据《每日经济新闻》记者持续几日在大会现场观察,多模态已经是当之无愧的行业关键词之一。

岩芯数智CEO刘凡平在接受《每日经济新闻》记者专访时表示,就今年而言,大模型的多模态能力肯定比去年有所进步。“但我认为,整个行业肯定还要再进步,目前我们已经做到了多模态的输入和输出,距离完全像人一样地实时人机交互,还要一点时间。”

作为一家以认知智能为基础的创新企业,岩芯数智Rock AI在今年1月份发布了全国首个非Attention机制的Yan架构通用大模型,开辟了非Transformer架构的一条新路径。这次WAIC,岩芯数智展示了Yan1.2版本的阶段性成果,主要展示Yan架构在更广泛、更低算力设备上的离线部署及多模态应用能力。

图片来源:每经记者 陈婷 摄

岩芯数智之外,据记者了解,今年WAIC期间,不少从业者强调了多模态的重要性。阶跃星辰创始人、CEO姜大昕博士表示:“攀登AGI山峰,‘万亿参数’和‘多模融合’缺一不可。”MiniMax副总裁刘华更是认为,多模态大模型有望引领新一轮科技革命。

除了存在感居高不下的多模态外,今年WAIC,对于大模型应用落地的讨论更多元了,对于安全治理的见解也更深入了。

今年WAIC大模型更“百花齐放”

官方资料显示,今年WAIC大会展览面积超5.2万平方米,500余家知名企业、超1500项展品参展,50余款新品首发首秀,均达历史最高。此外,近百个大模型集中展现,18台人形机器人矩阵亮相,国内首款全尺寸通用人形机器人开源公版机发布。

“目前来看,具身智能是挺多的。”刘凡平表示,就当前来看,具身智能的大脑可能还不够成熟,“未来,具身智能大脑仍需持续突破”。

大会现场,岩芯数智的研发团队展示了一款部署了Yan1.2多模态大模型的智能机器人小智,它基于Yan1.2的语音和视觉处理能力,能实时识别环境、准确理解用户的模糊指令和意图,并据此控制其机械躯体高效完成各类复杂任务。

据记者了解,此次“小智”机器人搭载的核心硬件是以低算力著称的树莓派第五代芯片,在极低算力的设备上实现了多模态能力。

现场,岩芯数智的工作人员向记者介绍了“小智”的能力。面对记者,它不但能依据指令向记者鞠躬,还能描述出记者身上穿的衣物特征。此外,小智还有文字类图像的理解能力。现场,工作人员在小智面前展示了书本的一页内容,很快,小智就能总结、复述出书本文字的大致意思。

刘凡平用“百花齐放”形容今年的WAIC。他表示:“当大模型真正发展落地的时候,其实不能再用以前的思维和大众思维思考这个问题,还是要以未来的视角去思考现在如何演进。”

据记者了解,今年WAIC,创业公司和大厂各有千秋。

阿里巴巴推出“通义十二时辰”,展示了对话、效率、智能体、视觉四个核心场景中的AI助手能力。此外,快手再次升级视频生成大模型“可灵”,腾讯则携混元大模型及多款AI应用亮相。

图片来源:每经记者 陈婷 摄

与此同时,记者了解到,大会期间,创业公司阶跃星辰首发了三款Step系列通用大模型新品:Step-2万亿参数语言大模型正式版、Step-1.5V多模态大模型、Step-1X图像生成大模型。

此外,据MiniMax副总裁刘华介绍,MiniMax将海螺AI、星野和MiniMax开放平台带到了本次世界人工智能大会。海螺AI可为用户分析财报、速读长文、创作文案,聆听用户的想法和烦恼,捕捉、理解用户情绪。

据悉,海螺AI背后接入了MiniMax自研的多模态大模型,包括万亿参数MoE大语言模型abab6.5、语音大模型和图像大模型。

关于未来的探讨:让每个设备都拥有个性化的智能

在本届WAIC期间,还出现了不少探讨AI未来发展方向的声音。

刘凡平便有一个更高的目标:就是在实现通用人工智能的同时,将AI与每个人独特的地方结合在一起,模型具备自主学习能力,让每个设备都拥有个性化的智能。

“我觉得值得惊艳的突破,不在于模型本身已有的知识能力。”刘凡平表示。虽说大家现在都在比参数量,但在他看来,更需要比较的是大模型自主学习的能力有多强。

“举个例子,小苍蝇、小壁虎、小兔子,它们的脑容量是不一样的,但它们都具备智能。”刘凡平认为,智能和参数量没有直接相关的关系,“因为人与人之间的比较也是这样,从来不是比较谁了解的知识比谁多,而是比较谁的学习能力更强,所以我认为大模型之后的比较方向应该是自主学习能力。”

刘凡平表示,当大模型具备了自主学习的智能,才是通用人工智能真正的开始,“现有的并不是(自主学习),现有的是一种压缩算法”。

图片来源:每经记者 陈婷 摄

对于大模型的未来,MiniMax副总裁刘华也表达了看法。他认为,随着多模态大模型技术的持续演进,文本、语音、视觉这三种模态的融合模型正逐步迈向成熟。一旦此类大模型技术达到成熟阶段,其应用场景将会进一步拓展,实现更多的实际应用。

刘华认为,在短期内,对多模态大模型的大规模落地应用预期应保持审慎态度,不过从中长期来看,坚决不应低估多模态大模型的重要性,它有望引领新一轮的科技革命。

另据媒体报道,旷视科技联合创始人、CTO唐文斌接受采访时表示,相比语言模型,增加训练数据量和参数量对于计算机视觉模型的提升和收益,目前看并没有那么大,而多模态会是大模型的未来。腾讯集团副总裁蒋杰也表示,大模型行业正经历从单模态到多模态,再到全模态的演进。

刘凡平也注意到了大模型在多模态能力上的进步,他还表示,与去年相比,今年WAIC在智能化上也有所提升,但基础变化还不是很大,硬件层次则更难。他推断,未来人工智能一定会走向硬件化,“当已经完全硬件化的时候,就是完全可商用的时候,任何人都可以用得起”。

他认为,今后大家可能会选用一种全新的算法替代现有的Transformer架构。“Transformer架构依赖的算力非常大,同时数据量要求非常高,这两个条件限制了它的发展。”

记者发现,即便大多选择从B端出发,但很多大模型公司已有面向C端的动作。

以阶跃星辰为例,其在WAIC现场展示了面向C端用户的自研产品。据报道,阶跃星辰副总裁李�Z在接受媒体采访时表示,目前,C端仍在早期阶段,还在进行用户体验的收集和打磨,随着C端模型能力提升,将产生很强的爆发力。而B端需求相对明确和稳定,已经涌现出非常多的确定性应用机会。刘华也表示,MiniMax坚持To B与To C业务并重的发展策略。

记者也从岩芯数智了解到,当前商业化的重心正逐渐从B端部署到C端,以软硬件结合的方式抢占C端市场先机。

每日经济新闻

(责任编辑:郭健东 )

推荐阅读:

老虎基金创始人朱利安・罗伯逊:他以50%的年复合收益率让华尔街颤抖,还以“孵化”顶级对冲基金经理为人生画上句号

美元兑人民币汇率突破6.92 市场人士称短期美元暂无下行动能

人民币对美元汇率中间价下调212个基点