在刚刚结束的VDC2024上,vivo正式发布了全新的OriginOS 5系统,深度融合大模型技术。同时发布的还有蓝心大模型矩阵,全面升级语言大模型和端侧大模型能力,并带来vivo自研的语音大模型、图像大模型以及多模态大模型。
vivo AI全球研究院院长周围表示,vivo在过去一年用AI重构系统,从而结合AI大模型的能力和手机的特点。OriginOS 5已经将AI融入到用户体验的各个方面。用户在日常使用中,并没有非常颠覆性的习惯行为改变,但AI提供了更智能便捷的服务。
为此vivo将模型的规模缩小到了3B,在体验、性能、能耗上,对比之前的6B和7B大模型都没有问题。同时将体积压缩到了1.5GB,因此OriginOS 5系统中,大模型开始作为默认配置加入到系统中。
对于大家关心AI具体的落地体验以及行业推动,周围认为AI系统的思考要回归本原,具体到感性和理性层面。前者关联到用户是否更暖心优雅的使用,后者则是能否更高效。
就像vivo做了vivo看见,帮助盲人看见这个世界,还帮国家无障碍环境展示馆制作了视障用户导览软件看博物馆。在这个过程当中,vivo还适配了一些眼镜,发现体验特别好,你一边走有一个耳机,在眼镜的底下会告诉你是什么东西。对于聋人来说,它把它听到的东西变成字幕投射在眼镜上。
由此AI的进一步进化,不仅是一个系统的智能程度,而是在潜移默化上为用户提供更好的体验,从而在软件和硬件上改变产品的形态。对此周围还透露。vivo未来也会做眼镜,AI将催生更多全新的智能设备,AI的能力能够支撑起这种智能体验。
对于vivo坚持自研大模型,周围表示vivo作为一个手机公司,百亿以下的模型极其有价值,图像识别、声音识别包括“-O”型的声音模型、审核模型、PhoneGPT都是百亿模型。千亿模型就是我们云端的中控模型,千亿模型大概可以到大学生的水平、而千亿以上可能用在一些复杂的场景,像大领域的应用等等,这就不是vivo的选项了。
以语言大模型为例,自研大模型能达到更好的效果。像周围是苗族人,如何让苗语可以被手机听懂,还能说得出,如果vivo不去自研的话,应该让谁来帮我们做?包括藏区甚至只有爱好者制作输入法,而vivo希望自己的输入法能够听懂藏语,听得懂回文,这方面AI给出了更好的支出。而这样自研的AI,显然不是供应商方案能实现的。
当然vivo也有行业的模型合作,但是认知需求在模型上的实现,只能vivo自己来做。这些做的东西短期拆解来看,没有太多的意义,但是我们经年累月积累的时候,比如说我们今年做了11种模型,初版做了20多种语言,明年40种,后年可能是60种、80种,80种语言只要一个模型就可以搞定,当这种东西越来越多的时候,这个时候的手机就会出现体验上的差距,而vivo就是基于这种长远的角度来做自研的。
新浪科技公众号“掌”握科技鲜闻 (微信搜索techsina或扫描左侧二维码关注)
相关新闻