摘要
偷偷干了件大事。
外界对理想汽车的认知,似乎存在不少误解。
在众多新兴汽车品牌中,理想汽车常常被指责「没有技术」,甚至有些声音将其产品贬低为「工业垃圾」。尤其在智能座舱方面,外界对其印象似乎仅限于冰箱、彩电和大沙发等元素。
这种误解看似有其道理。理想汽车创始人李想被认为是车圈最优秀的产品经理,他敏锐地洞察了多孩家庭的需求,并针对这一细分市场提供了更好的用车体验。
在这过程中,理想汽车的宣传策略长久以来是将技术细节置于幕后,更注重于展示产品的使用体验,比如宽敞的空间、舒适的配置以及影音娱乐等功能,而相对少提及自主研发技术。这些在无形中造成了外界对理想汽车的认知偏差。
尽管理想汽车率先推出了冰箱、彩电和大沙发等配置,但理想汽车深信,真正能够提升智能座舱体验的,将是他们自研的大模型——Mind GPT。理想汽车在2023年一季度开始了这一项目,成为全球首个自研大模型上车的汽车企业。
理想汽车AI首席科学家兼智能座舱AI负责人陈伟 | 图片来源:理想汽车在广州车展开始前,极客公园在北京望京的理想汽车办公室,采访了理想汽车的AI首席科学家兼智能座舱AI负责人陈伟。他分享了大模型在汽车中的应用及人机交互助手-理想同学的未来展望。
目前,理想汽车已成为新能源车企中的交付领跑者,但其战略目标远不止于此。陈伟表示,理想不仅仅是一家车企,更是一家人工智能公司,智能汽车连接了物理世界和数字世界,他们希望把身处数字世界的理想同学打造成未来的智能体。发展分为三个阶段:首先增强用户的能力;其次成为用户的得力助手;最后成为能陪伴用户的家人。当然,这个三个阶段不是泾渭分明,是会相互交叉的。
对于未来,理想设定了一个宏伟的目标:成为全球领先的人工智能企业。他们的智能电动车不仅会成为最早的人工智能机器人,还将构建物理世界中的AI生态系统。如今,理想汽车正稳步朝着这一目标迈进。
理想不仅是一家车企,更是一家人工智能企业
Q:外界对理想智能座舱的发展历程了解不多,你能先介绍下吗?
陈伟:理想智能座舱的AI交互技术经历了三代发展。最早,我们主要依赖供应商技术,但三年前开始自主研发,逐步建立了基于视听融合的多模态交互技术,实现了从语音交互到智能认知的全栈闭环。2023年初,我们启动了大模型的研发,年底成功将其应用在车载系统中。
在大模型出现前,语音交互主要是命令式或任务型的,行业竞争更多集中在语音识别的速度、执行的准确性和响应效率上。然而,提升家庭用户体验始终是我们的目标。我们专注于「全家人」的用车场景,打造「三维空间交互」的智能座舱。这一座舱不仅是生活和工作之外的“第三空间”,也是一个高性能运算平台,搭载了丰富的传感器和强大的本地算力,为创新功能奠定了基础。
例如,我们在座舱中实现了「无音区」技术,不再局限于某个特定区域,而是基于空间坐标定位和跟踪声源。此外,我们开发了「方言自由说」功能,现已支持9种方言,便于不同用户群体使用。我们还添加了隔空触控和手势识别,结合语音指令,进一步降低用户的交互成本。
在研发理想同学的技术时,我们始终专注于让人机交互更自然、高效,致力于为用户提供强大而超出预期的智能体验。
Q:理想在研发自研大模型时主要考虑了哪些因素?
陈伟: 在研发大模型之前,车内的应用场景主要集中在车控、媒体、导航等任务型对话,且感知技术趋于成熟,但认知能力仍然不足,尤其在复杂任务理解、知识问答、开放式对话上存在局限,这也制约了理想同学的产品力。
我们在2022年便开始推动预训练语言模型技术,逐步提升理想同学的自然语言理解能力。而2023年初,随着ChatGPT的发布,我们更加坚定大模型是突破认知能力的关键。因此,决定启动Mind GPT的全栈研发,以期推动理想同学的体验跨越式提升。
当时,开源生态刚刚起步,业界对大模型的理解也较为模糊。为加快进展,我们投入大量资源从大模型基座开始探索大模型“无人区”技术。研发初期,我们专注于车内高频使用场景,打造理想同学在大模型时代的新角色,包括用车助手、娱乐助手、出行助手和百科老师,力求让大模型表现出色,并能实现无感知的能力升级,同时与原有的任务型对话无缝融合,从而提升理想同学的智能化水平。
Q:在大模型与传统对话系统的融合中遇到了哪些挑战?
在开发Mind GPT时,我们投入大量精力解决了任务型对话系统与大模型能力的融合问题。许多车企的大模型系统需要特定指令才能启用,导致原有功能失效。而我们的目标是让理想同学在智能化提升的同时,保留用户熟悉的交互体验,让用户在自然中感受到功能进步。
此外,随着大模型的对话能力提升,理想同学在用户对话中可能会插话干扰。因此,我们设计了多模态用户意图判定算法,让理想同学能够精准识别是否在与他交流,从而实现“随叫随到”却不打扰用户的体验。
大模型在信息准确性和时效性上存在“幻觉”问题。为此,我们设计Mind GPT具备连接知识库及互联网的能力,以确保用户获取的信息准确且及时。这也是我们在优化模型体验时着重突破的方向。通过不断探索用户场景,我们在大模型研发的过程中,也在持续扩展其应用深度和广度。
理想Mind GPT的技术架构 | 图片来源:理想同学Q:Mind GPT经过了从1.0到3.0的迭代,这个过程中有哪些关键技术突破?
陈伟:Mind GPT的演进经历了三个重要阶段:
1.0 大语言模型: 聚焦大语言模型能力的打造,在模型效果及推理效率找到最优解,实现理想同学认知能力的跃迁,这个阶段重在语言理解、生成、知识问答等能力
2.0 语言智能体: 聚焦大语言模型应用能力的打造,核心是构建围绕Mind GPT的智能体技术及工程体系,理想同学光有一个聪明的大脑是不够的,他的规划、记忆、工具、行动的能力都要足够的好,才能具备自主性,解决更多复杂问题。
3.0 多模态智能体: 聚焦多模态的智能体能力打造,核心是构建融合感知和认知的多模态端到端模型的能力,将人机交互感知和认知的级联系统升级到单一端到端模型,在交互延迟极大降低的同时,多模态数据的融合训练能够进一步提升模型的学习质量和效率,实现模型能力显著提升。
Q:最近,理想汽车连续发布三篇人工智能顶会论文,能简单介绍一下这些论文的内容吗?
陈伟: 这三篇论文主要聚焦于提升大模型的感知能力、解决人类-物体交互(HOI)检测中的长尾问题,以及应对大模型的“幻觉”问题,为理想汽车的多模态、端到端智能体构建提供了重要技术支持。
第一篇论文(文章尾部参考文献处有详细介绍) 探讨了如何有效将多模态信息与大语言模型(LLM)融合。当前大多数多模态模型将不同模态的内容对齐到语言模型的语义空间,以便利用其强大能力。然而,传统模态连接器往往无法针对特定任务提取所需的模态信息。为此,论文提出了Q-MoE(高效的混合专家模态连接器),通过引入文本信息的监督,使多模态信息提取更具针对性。Q-MoE采用创新的模型结构和混合专家路由策略,在跨模态多任务学习中的性能显著超过现有连接器。
第二篇论文 提出了KG-Adapter,这一技术将知识图谱(KG)整合进大语言模型,以应对模型“幻觉”问题。尽管大模型在很多任务中表现优异,但往往缺乏准确的专业知识和最新信息。KG-Adapter基于高效微调(PEFT)方法,将知识图谱的结构信息直接整合到语言模型中,实现了端到端的知识推理。实验表明,即使只训练少量参数,KG-Adapter在多任务和多个数据集上超越了之前的模型,显著提升了知识准确性。
第三篇论文 针对HOI检测的长尾问题,提出了“双先验增强解码网络”方法。这种双先验解码网络结合了多模态大模型的交互理解能力和检测模型的局部特征定位能力,大幅提高了模型在长尾类别上的识别精度,性能提升超过6个百分点。
Q:理想为什么要花这么大的精力自研大模型,很多车企其实利用现有的大模型产品?
陈伟:从战略上来看,理想公司的目标是成为全球领先的人工智能企业,而大模型技术是AI的核心能力,关系到智能化产品体验的关键。自研大模型能帮助我们在技术创新和用户体验上更具主动性和优势。
从产品的角度看,理想同学旨在超越用户期望,提供创新和高效的智能体验。自2022年以来,大模型和智能体技术迅速发展,但也充满了技术挑战和不确定性。要在这些前沿领域持续提升产品力,就需要突破技术壁垒,并保持快速迭代的能力。
理想公司从战略上选择自研大模型,目的在于打造自主可控的全链路技术体系,以更高效、深度的产研协同推动体验创新。通过自有大模型“Mind GPT”,我们能够以用户体验为中心,实现快速迭代,确保理想同学在智能体验上的持续领先。
Q:目前理想自研的大模型规模有多大?
陈伟:Mind GPT目前主要分为Ultra、Pro和Nano三个级别,其中Ultra千亿级、Pro百亿级、Nano十亿级,覆盖了端到云、简单到复杂的大模型需求
Q:目前大模型的迭代速度非常快,理想自研的大模型如何跟上这个速度?
陈伟:目前大模型技术迭代的很快,我们也在持续跟进并识别可行的技术,快速应用到Mind GPT研发中,同时结合我们的业务场景,我们有自己的研发节奏和主线,在模型层面,从Mind GPT 2.0开始我们已经切换到MOE架构,以此进行模型结构的创新和改进,大模型能力会放在多模态、知识增强、逻辑推理上,最近发表的论文也介绍了我们在这些方面的研究进展。
此外,我们认为理想同学智能化水平的提升,除了在大模型能力上持续突破之外,智能体的规划、记忆、工具、行动等技术的全面升级,才能构建自主性更强的组合智能,这个方向我们也在重点研究,研究进展也会陆续通过产品和论文的方式对外发布。
汽车的最终形态是智能体
Q:理想同学的终极目标是什么?
陈伟:我们认为理想同学的进化会分为三个阶段,增强人的能力,变成用户的助手,成为用户的家人。成为用户的家人会是理想同学的终极目标,对应到研发要做的工作,要实现理想同学多模态智能体的全面突破,可以参考OpenAI对智能的分级标准,需要做到从L1的chatbot到L2 Reasoner,再到L3 Agent的技术演进。
Q:如何具体理解理想同学的三个发展阶段?
陈伟: 这三个阶段体现了我们不断满足并超越用户需求的愿景。
第一阶段:增强用户能力 在初期,我们希望理想同学帮助用户更便捷地用车。通过视觉和语音等多模态感知能力,实现自然高效的人机交互。例如,用户可以自由使用方言或简单指令,理想同学通过大模型Mind GPT理解和执行车控、导航等任务,提升语音指令执行的准确性。比如,用户可以简单说一句“我上车开空调播放音乐,下车都关掉”,理想同学会根据情境自动拆解任务,感知到上车后启动空调和音乐,下车后自动关闭。这种便捷的功能让用车体验更轻松高效。
第二阶段:成为用户的助手 在Mind GPT的支持下,理想同学进化为用户的全能助手——包括用车助手、出行助手、娱乐助手和百科老师。作为用车助手,它能回答关于车辆操作、状态查询、故障排除等问题;出行助手则可以为家庭旅游规划路线,推荐餐饮娱乐,讲解沿途文化;娱乐助手能联网查询时事热点、明星动态,播放家庭喜爱的音乐和影视;百科老师则涵盖广泛的知识,从儿童的十万个为什么,到成人关注的科技资讯,理想同学在持续成长的知识储备下,为家庭提供全方位的服务。
第三阶段:成为用户的家人 随着理想同学解决问题的能力增强,与用户的信任关系逐步加深,我们希望进一步建立情感连接,最终成为家庭的数字成员。这个过程需要从信任到情感,再到身份认同的长期构建。例如,通过声纹识别,理想同学已能识别每位家庭成员;随着Mind GPT的记忆功能升级,我们不断加强理想同学的个性化服务能力。在24年的多次OTA更新中,理想同学更能基于对每位家庭成员的理解,主动提供个性化推荐。这是我们坚定发展的方向,希望理想同学获得更多家庭的认可与喜爱。
Q:目前整个行业,在大模型落地智能座舱方面的进展如何?
陈伟: 2023年我们Mind GPT行业首发之后,2024年行业很多公司都陆续推出了接入大模型的语音助手,行业智能座舱智能化水平整体在快速提升,大模型也成为了重要的卖点。 对我们而言,我们唯一关注的是基于Mind GPT的理想同学是否在真正解决用户问题,是否持续做到超越用户需求,是否在技术和体验上是行业引领的,做好自己最重要。
Q:各家车企都在加速大模型的落地,那理想如何打造差异化呢?
陈伟:我们的差异化聚焦于技术创新,这能够直接推动产品领先。我对差异化的理解分为两个层面:
第一层面,对于行业内类似的功能,我们的技术和体验必须显著超越。现在大模型的应用已经将AI助手从单一领域扩展到多元领域,我们的目标是通过技术突破,将体验从“可用”提升到“好用”。
例如,在推出Mind GPT前,很多公司选择简单地将大模型加入现有的任务型对话系统,以快速上线,但这种方式使用时会有割裂感。我们认为用户应该感受到的是AI助手变得更聪明了,而不是需要操作切换。因此,我们选择了更难但正确的路线——将大模型融入对话系统,让“理想同学”一次升级,更加智能。不需要切换操作的情况下,技能从几十个快速增加到上千个。
第二层面,快速跟进前沿技术并转化为产品。大模型仍处于快速发展阶段。去年大模型发布后,我们判断“智能体”将是关键技术,因此大力推进相关研发。
随着Mind GPT 2.0上线,理想同学在大模型和智能体两方面都得到了升级,Benchmark测试中的理解、生成、知识问答等能力提升了50%以上,而推理成本没有增加。同时,我们在智能体的规划、记忆、工具使用和行动方面取得的阶段性成果也被迅速转化为理想同学的功能,这带来了更强的复杂问题规划和外部工具连接能力,显著提升了多轮会话的成功率。
理想同学会成为人机交互的主要入口 | 图片来源:理想同学AI时代,语言团队变化最大
Q:大模型和端到端技术的到来,对组织架构有何影响?
陈伟:大模型时代的到来正在重塑研发模式,导致组织架构发生显著变化。
在小模型时代,研发组织通常是基于专业技术方向设计的,例如语音、语言和视觉等。不同技术方向的模型选型各异,研发方案往往是多个小模型与业务逻辑相结合的级联系统,各个方向之间的差异性较大,因此,各个技术方向独立进行研发、评估和上线。
而在大模型时代,多个研发团队需要共同支撑Mind GPT这样单一的大模型的研发和交付。研发方案从级联系统升级为端到端的系统,研发团队不再按照技术方向进行组织,而是根据大模型的研发环节来划分。这包括Mind GPT的大模型预训练、后训练、智能体技术、评估和对齐等方向,从而重新设计研发组织架构。
Q:理想同学在车内的比重会越来越大吗?
陈伟:会越来越大,大模型时代智能座舱的人机交互形态会从触控式交互走向对话式交互,理想同学会成为人机交互的主要入口,我们已有的车机应用会原子化、平台化,支撑理想同学具备更强的跨应用、高集成度的能力。
Q:多模态智能体目前发展到了哪个阶段?未来还有哪些挑战?
陈伟:我们的多模态智能体正在从Mind GPT 2.0语言智能体向Mind GPT 3.0多模态智能体演进,目前行业研发的重点还是以多模态端到端大模型为主,多模态智能体的研究还较为早期。
我觉得多模态智能体的突破取决于三件事: 1. 大模型逻辑推理能力的突破 2. 多模态特别是语音、视觉和语言的对齐 3. 工具类生态的建设。
Q:最后一个问题,外界对理想最大的误解是什么?你们会如何回应?
陈伟:其实谈不上误解,我们更希望通过产品与用户直接对话。因为关于理想座舱AI和自研技术的对外介绍较少,大家对理想同学的技术进展和现状可能了解得并不充分。未来,我们会加强与行业和用户的沟通,增进大家对理想同学技术实力的了解。
在技术研发上,我们始终围绕“Mind GPT”大模型,致力于打造多模态智能体的全栈自研技术。通过规模化的创新与突破,我们希望理想同学不仅是用户的助手,更成为陪伴他们成长的家人。这种陪伴和成长,是我们研发团队最大的成就与自豪。
参考文献:
1、理想汽车Mind GPT论文《Q-MoE: Connector for MLLMs with Text-Driven Routing》被多媒体领域国际顶级会议ACM MM 2024录用。
2、理想论文《KG- Adapter:Enabling Knowledge Graph Integration in Large Language Models through Parameter-Efficient Fine-Tuning》,被ACL(计算语言学协会年会,Annual Meeting of the Association for Computational Linguistics) 2024收录。
3、理想论文《 Dual-prior Augmented Decoding Network for Long Tail Distribution in HOI Detection》,被AAAI (Association for the Advancement of Artificial Intelligence,即人工智能促进协会)收录。
理想汽车智能座舱彩电 新浪科技公众号“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
相关新闻