“为什么我们现在还离不开屏幕?四大观点:其一,屏幕目前是输入和输出二合一的主选;其二,操作最直观,易学习、易理解;其三,信息可无限迭代,易拓展;其四,能力边界的清晰,易场控,交互成功率比较高。但最终,AIGC对智能座舱形态的颠覆,我们认为从输入来说,将来主导的还是会语音输入以及智能表面小触屏,这是我们新型的输入的方式。输出方式还是以宽广视野的HUD本身,非触摸的一些屏幕,以及氛围灯、氛围屏等等会作为我们输出的一个载体。”
2023年6月16日下午,在第十五届中国汽车蓝皮书论坛智能化专场上,同济大学汽车学院与设计创意学院双聘教授、人车关系实验室创始人马钧做主旨演讲,题目为《屏幕还是智能座舱交互的中心吗?——AIGC对座舱形态与场景的颠覆》。
今天我带来的题目也是主办方给我的一个题目,因为我一直做人机交互,也一直在做智能座舱,我们真的是在思考现在的同质化。在这个时代,屏幕越来越多,屏幕也越来越大,将来这个屏幕会不会真的还是中心?今天我也带来了我们近一年来的思考,包括一些总结。
第二个,大家也知道从去年开始,AIGC也好,大模型也好,如火如荼,也有一些新的进展跟大家汇报一下。
今天带来的核心内容是两个句号,一个问号。
第一个句号是,我们认为屏幕今天仍然是智能座舱的中心。
第二个句号是,AIGC时代的到来将会改变屏幕中心的地位。
但是最后就是留给大家一个问号,在这个时代到来的时候,我们到底应该做些什么?我们应该准备些什么呢?这是一个思考。
先看几个我们近一年的一些小的总结和做的一些案例,可以跟大家分享一下。
第一个,座舱目前创新大多还是集中在屏幕本身,尤其像今年的车展大家看到的,无论是HiPhi-Z上搭载的多轴的动态平台,还是像升降屏,滑动屏,车内的游戏,电脑投屏、遮阳板副驾屏等,大家在多模态交互谈了那么多年的时候,还是在玩屏幕本身。所以屏幕目前确实还是一个中心。所以智能座舱的创新大多目前还是集中在屏幕本身。
第二个,大家看一个我们实验室的科学数据。我们的实验室每年大概会做30到50款量产车的评测,这个评测里边有很多的结论。
语音是左边浅灰的;触屏是当中的,深蓝色的;中控件是右边的。大家看到当我们做了两个功能的测试,一个是调节温度,还有一个是搜索目的地。当你去做这两个功能控制的时候,我们用眼动仪测出来的数据,都是最后认为对于大多数驾驶次任务来说,触屏造成的驾驶分心大于语音和按键。所以屏幕跟安全性之间我们实际上一直在思考到底好还是不好?多模态交互、语音交互,包括按键交互和屏幕交互到底哪个好,有些具体的数据大家也可以得到。
正是因为我们这个屏幕现在是中心,所以座舱的挑战目前还是来自于屏幕。
我们讲的同质化本身也好,座舱是不是设计得很高级也好,大家看看,中控屏幕实际上在整体内饰的设计当中显得比较突兀。
我有很多的德国的老朋友们,他们很喜欢old classic cars,button就是button,镶金属边的就是镶金属边的,在这代人的情怀里边它逃不了。所以中控屏实际上如果从设计的角度去谈的话,实际上是有一些突兀的。
第二个,恰恰是中控屏越来越大,实际上限制了我们创新思维的发散,以及设计的新理念。所以从某个角度来说,中控屏使座舱越来越同质化,同时限制了创新。
第三个,我们后来也研究了为什么屏幕现在还是离不开?四大观点:
其一,屏幕目前是输入和输出还是二合一的主选。
其二,操作最直观,对用户来说操作最直观,易学习、易理解,也就是说我们说怎么做,做到了吗?一目了然。但这个恰恰是在多功能的旋钮,包括用语音交互目前来说还不是做得最直观的。
其三,信息可无限迭代。易拓展、易理解,功能按键更不具备此优势。
其四,能力边界的清晰。语音控制目前还并不具备此优势。包括它的边界是可以易场控,而且交互的成功率比较高。
基于这四个原因,我们就发现目前我们还是离不开屏幕。
但是现在是一个什么样的时代呢?大模型也好,AIGC的时代到来了,那么它会不会改变屏幕的中心位置呢?
我们的观点是:是的。它不光是改变,应该是在不久的将来会是一个颠覆性的思考。
先讲一张很多词语的图,实际上谈到Chat GPT也好,真正火是从去年年底开始火,但实际上这个概念大家知道很早就有了,谷歌的Transfomer模型是2017年就开始诞生的,到了现在大家看到从GPT-1也好,2也好,3也好,真正开始火的是GPT-4。也就是说我们传统的计算机的学科,机器学习本身是把一个场景问题分成若干个子问题来各个击破;后来是到了深度学习,深度学习解决的是端到端的问题;第三个现在大模型的学习的时代是多场景的端到端,一次性我就可以来帮你解决。
基于这样的思考,大家看到最近出来那么多的OpenAI上的插件应用,大家可以思考,OpenAI将来会不会也是一个生态呢?一定会是。它甚至可能是自己一个系统。
所以我们的结论是:以AIGC强大的用户意图的理解能力,包括推理能力将来将会融合其他的插件,形成它自己独特的生态。
强大的人机对话是否会影响以屏幕为交互的交互方式呢?这就是我们提出的新问题。
我们也在思考,我的团队能够在AIGC的时代,包括各个在座各位零部件企业或者整车厂,我们应该做什么?左边大家看到更多的是基于AIGC这个智能座舱的整个计算机的分层。
底层必须要做的是分层的AI,当中还会有单域、跨域、多域,一直到终端数据轻量级的计算,上面还会有云端、有网络。所以这是一个庞大的复杂的综合性的系统。
基于这样的考虑我就在问自己,或者你可以问问自己,你有没有3亿元人民币?我自己认为3亿元人民币现在就是一个启动的开始。当然如果有的话,我鼓励大家直接可以去进军考虑训练智能座舱的LLM,直接就可以做。但是我没有,我说我现在不行,所以我期待我们的团队能够现在在做的更多的是产品应用的最后一公里,如何帮助整车厂、零部件企业能够在这方面做到可解释、可信任。
我们有一个观点是说AIGC的时代会让屏幕独享的优势慢慢地丧失。
刚才讲的四个,我们为什么现在还离不开大屏,从输入输出,操作直观和信息以及能力边界,恰恰AIGC都能够把这四个屏幕的独特的优势让它丧失殆尽。
先看输入和输出,AIGC的生成能力让交互的输入大幅减少,当然能够自动生成了。
第二个操作直观,它不再需要引导用户进行逐步的操作,端到端直接给方案。
第三个,不再需要将多级繁复的信息展现出来,我直接就可以给。
最后当然了它也不需要让用户了解系统能力的边界,它直接对话就行了。
所以我们认为AIGC可以让屏幕独享的优势丧失。
第二个观点是,在AIGC的潜在的创新领域里边到底包含哪些呢?
这里边我们第一个讲的叫眼动,眼动我认为是一个大方向。
第二个是AI透视的场景将真实贴合在虚实之上,包括现在的Vision Pro,我个人认为还是一个非常伟大的创新性的体验。
第三个是一个个性化的千人千面的HMI,可以由AIGC直接生成。
最后就是场景,谈到这个你场景是不得不要考虑的,场景的编排,个性化的场景等等都是可以由场景形成生成式的一些服务。
所以,AIGC对智能座舱形态的颠覆,我们认为从输入来说,将来主导的还是会语音输入以及智能表面小触屏,这是我们新型的输入的方式。输出方式还是以宽广视野的HUD本身,非触摸的一些屏幕,以及氛围灯、氛围屏等等会作为我们输出的一个载体。
当我们谈到两个句号结束了以后,这个时代我们能够要做什么准备呢?这里正好跟大家汇报一下我们的两个实验室最近在做的一些事。
第一个,体验的时代早就到来了,但是基于体验我们在讲场景化,实际上现在所有的整车厂都在建场景库,场景是需要被评价,场景评价是需要一个体系的。
什么是场景?我们说场景必须是可溯源,场景可以被追溯,也可以被预测。所以我们谈的这个场景的评价体系是贯穿了整个汽车开发流程,从用车场景、用户需求一直到产品研发,到产品评价的四个方面的所有的合作点。
基于这个,我们自己推出了两大产品,第一个产品就是共创的场景设计,就是当中这个叫汽车新场景设计。新场景如何形成,这个一定不是领导拍脑袋拍出来的,而是实实在在需要通过生活中的场景,装备的特性,用户的共创,最后得到的场景设计,这是第一步。
有了这一步还远远不够,我们建立一个叫普适需求指标库。当你有了普适需求指标库以后,才可以结合场景的设计,加上使用的这个文化模型来理解用户以后,由这个三方最后通过我们的场景评价的四个指标,就是主动、愉悦、安心和便捷四个指标形成最后需求的评价库,就是场景的评价库。这个是我们现在真正的第一个产品,帮助主机厂如何打造千人千面独特的产品的第一个产品。
第二个产品,我们在做啥呢?大时代、大模型,大家看看从今年的1月份开始,大模型的数量快速增长,中国10亿级参数规模以上的大模型已经发布了79个,我们是叹为观止。我们现在也有软件的团队,大模型的整个数量和汽车领域的落地场景非常快地已经被迭代了。
我们评测的两个不同的模型,一个是国内的模型,一个是国外的模型的一个结论。实测的案例是这样的,一个用户输入说我很不开心,我想去兜风。国内的某一个模型,我不能点名,它说为什么不去兜风呢?也许它能帮助您放松心情。而国外的模型B输出,说理解你的情绪,兜风是很好的一个放松方式,帮助你选择一个合适的目的地,让我们一起享受吧等,每个模型的输出完全不一样。
问题就来了,现在很多的整车厂就找到我,说你能不能帮我来看看这79个大模型里边,跟我的品牌,跟我的用户,跟我的场景哪个最适合?
实际上现在大部分的整车厂自己,无论是新势力还是老势力造车全部自己在做。我就告诉他,你们没有必要自己做,我来帮你们做好这个服务。所以我们在这个基础上,我们的XAI Lab(智能体验实验室)做了一个产品叫智能座舱大模型用户体验评价体系。
这个评价体系也是今年第一次跟大家见面。高效、愉悦、智能和安全,这个是我们现在关注的大模型的指标体系的四大类。
底层的基础大家看到,基础里边包含八个,这个是跟数学模型有关,计算机学应该去做的事情,不是我汽车的人要搞的。所以无论是从政治敏感、违法犯罪、身体伤害,我们认为这个属于基础模型,跟我们没关系。我们只关心最后是用户体检这块。
基于这样的模型,我们有一个应用案例跟大家讲一下。我们当时测的这一款车型是基于text-davinci-003模型,因为OpenAI现在也有很多的模型。
这个模型大家看到,我们在全国大概有几万个用户的测试库,他们做了测试以后最后得到的这个体验的总分是78分。也就是说这个模型针对于这样的用户和这样的车型最后得到的是在信任感层级是最高的,而这个在推理力排名第二。
通过这样的梳理我们就可以很容易地来告诉我们的整车厂说,我们哪个大模型最后是适合你这个用户和你的场景以及你的品牌的,来帮助你们的品牌最后找到自己的独特性。
好的,因为时间关系,我今天就讲到这儿,谢谢大家!