在商汤看来,多模态大模型的座舱落地,突破了空间的限制,实现舱内用户与更广阔的物理和数字世界的联接,助推智能汽车向超级智能体进化,本质上,是一个生态的集成。
火山引擎汽车行业总经理杨立伟也表达了类似观点,大模型天生就跨终端,能够生态打通,将来大模型在座舱最大的价值,就是帮助座舱集成好生态,再打通各个终端,有足够的想象空间。
中国军团,硬刚GPT-4o
何为“多模态”?
无论是文本、语音、图像还是视频,都是我们表达和传递信息、同时也是感知信息的方式。而每一种信息的来源或者形式,都可以称之为“模态”(Modality)。
人类通过视觉、听觉、触觉等感官来接收和理解外部信息,也可以通过文字、语音、图像、视频等模态来表达、传递和交流信息。更广义来说,两种不同的语言,比如中文和英文,也是两种不同的模态。
图像、语音、视频等单一模态训练,能在特定的专业领域表现亮眼、取得很多成就,包括围棋领域的AlphaGo、蛋白质结构预测的AlphaFold,但这些单一模态模型仍旧存在一些局限性。
那么,何为原生多模态?
具体来看,原生多模态就是指从训练阶段开始,模型就利用大量不同模态的数据进行预训练,技术上实现紧密的耦合,不仅可以在输入和输出端实现多模态,而且还具备强大的多模态推理能力以及跨模态迁移能力。
它和之前的多模态模型最核心的区别,在于模型训练过程中,是否同时处理所有模态的数据,还是分别针对不同目标进行优化,是不同模态之间的相互串联、桥接与转化。
前两月,商汤绝影率先实现原生多模态大模型的车端部署,官宣了搭载在200 TOPS 平台上的8B模型(即80亿参数)车端部署方案。相较于有几秒钟延迟的云上部署方案,商汤绝影车载端侧8B多模态模型可实现首包延迟可低至300毫秒以内,推理速度40Tokens/秒。
大模型“上车”的新功课
神州数码汽车业务集团CTO刘黎告诉《/C次元》,人类数字化历史上出现过两个超级生态,第一个是微软和英特尔的PC生态,第二个是苹果和安卓的手机生态,目前业界正期待第三个超级生态的到来——
英伟达主导的CUDA有其影响力,但还没有像前两个超级生态那样,出现杀手级的应用。智能车具有大量的传感器,远多于手机,还是移动的隐私空间,极有可能成为下一个超级生态的突破口。
不过,很多车企的座舱设计,只是把手机的卡片式交互移植到了车上,屏幕比较大,堆积了音乐、导航等,本质上还是卡片式交互。想要从根本上解决交互属性,多模态是一个切入点,可以最大程度发挥智能座舱的自有优势。
科大讯飞智能汽车事业部智能座舱业务总经理吕思南看来,多模态大模型加速“上车”,座舱深入融合越来越多,算法的需求也越来越强,对于算力也有极大的压力。
另一方面,是实际需求的取舍。
最近一两年,座舱大模型如火如荼,但从最终呈现的产品体验来看,很多座舱应用成了消费者眼中的“鸡肋”。在智驾领域,端到端等新趋势可以提高性能和技术的天花板,但座舱大模型孵化的诸多新应用,却遭遇了“食之无肉、弃之有味”的尴尬。
火山引擎座舱大模型负责人张航强调,最近几年,座舱内的用户需求没有太大变化,它的本质是跟车的交互。所以,智能座舱当前的重心,不该急于产品创新,而是回归原点,改变车内场景的交互效率。
百度智舱业务部总经理李涛也表达了类似的观点,如果一个功能频繁被用户使用,一方面说明该功能非常实用,用户对它产生了依赖;但另一方面,也体现了整体车辆设计的智能化程度比较低,无法理解用户当前所需。
“根据帕累托定律,整体软件应用也符合八二原则。这意味着,80%甚至更高比例的应用不会被使用,这样一来,不只应用端产生浪费,主机厂也需要大量投入,无形中造成了整个社会的浪费。”
晨曦吻了脸 | 8天前 |
快速实用,好帮手! |
好运小精灵 | 4天前 |
快速高效,推荐使用! |
糖果女孩 | 3天前 |
这个app简直是垃圾,功能不实用,界面丑陋,浪费了我的时间和流量! |
温柔小仙女 | 8天前 |
使用这个app之后发现手机变得越来越卡顿,明显是个资源占用过高的垃圾软件! |
不疯不颠不青春 | 4天前 |
使用这款app的时候,我完全没有感到任何卡顿或者卡死的情况,流畅度真的很给力。 |
温柔小仙女 | 8天前 |
界面清晰,易上手! |
吃掉兔叽 | 9天前 |
使用这个app之后发现手机变得越来越卡顿,明显是个资源占用过高的垃圾软件! |
甜蜜宝贝 | 7天前 |
快速实用,好帮手! |
恋你年华 | 8天前 |
虽然这个app的功能很多,但是有些功能的使用方式不太直观,需要花时间去学习。 |
今天小雨转甜 | 2天前 |
值得推荐,好评! |