火狐体育平台网页登录
news information
EN
当前位置:
关于 AI 上车极越眼里只有特斯拉
来源:火狐体育nba直播 | 作者:火狐体育nba直播 | 发布时间 :2023-12-04 19:20:01 | 41 次浏览: | 分享到:

  2023 年广州车展,又是烟花缭乱的新车上市,想到半年前的上海车展,一样的百花齐放,所有车企用尽办法留住客户的目光。

  但是似乎这半年,似乎什么都没发生,层出不穷的产品,不断新品被转移的注意力和被迫加入价格战的各大车企。

  半年过去了,智能电动汽车的智能真的到来了吗?多一个功能,多一种控制车的方式,就可以称之为智能电动汽车变革了吗?

  真正的智能,一定是从 AI 底层去思考。多一种交互方式不是真正的智能,就像人类,智慧是靠大脑决定的,而不是靠四肢。

  但是最近发布的极越 01 喊出的口号是「未来十年的车,都会有极越 01 的影子」。

  那差异在啥地方,百度这么多年的 ALLIN AI, 又能给智能汽车提供什么能力?

  在回答这样的一个问题前,我想先探讨下智能的定义,为什么人工智能 发展了这么多年,直到 ChatGPT-3.5 横空出世,学术界才认为 AI 步入爆发期。

  可惜的是,这个答案的定义本身就不够清晰。什么是「大模型」,没有一个准确的定义。

  我们通常所讲的大模型,比如 ChatGPT,文心一言,所指的是大型语言模型(LLM,Large Language Model),也就是比较「大」的神经网络语言模型。

  这个「大」主要指模型结构容量大,结构中的参数多,用于预训练大模型的数据量大。

  一个大模型可以分三个层次:算法(模型结构)、模型参数(数量和数值)、训练数据。

  但是大是一个相对概念,并没有一个标准的定义,而我们常说的以 ChatGPT 为代表的 LLM,也只是一个 Large Language Model 的模糊定义。

  例如下图中的模型参数,我们大家可以看到 GPT-3 的模型参数量已经高达千亿,但是 GPT-3 出现时,并没有引发大量的关注,人们认为这不过是一个巨量参数的模型罢了。

  OpenAI 首次在 GPT-3 之上用人类反馈去微调模型,使得模型与人类期望相符。

  团队寻找了许多具有较高认知水平的标注员,来保证人类反馈的合理性;并且根据人类标注员的反馈训练了一个奖励模型,基于这个反馈模型来让数据的标注更加趋近人类的感受。

  这是从构建过程中就产生的本质变革,不仅是大量书籍,也包括大量人类的反馈。

  就像一个学生,学习了大量书本知识之后,还需要在社会中进行历练,才能真正成长为一个有价值的角色。

  巨量数据训练的模型让 ChatGPT-3.5 产生了足够的归因和推理能力,甚至拥有自我决策的能力。

  传统的汽车是基于按键做相关操作的,以人类的思考为核心,拥有外化的执行能力,例如按下一个键空调会打开,能打开车窗。

  现在大部分智能汽车,依然遵循着这种逻辑,无非是将实体按键整合到屏幕上,并没有产生实质的变化,因为并不具备决策和理解能力。

  这个问题依然不好回答,我想起 OpenAI 最近刚刚推出的一款智能硬件 AI PIN。

  这是由 OpenAI 提供技术上的支持的可穿戴设备,专为与大型语言模型交互而设计。

  这款设备允许用户通过说话,来拨打电话、发送短信和搜索信息,还拥有激光显示屏,直接将手掌变成一个迷你屏幕。

  AI PIN 内置的模型来自于 OpenAI,拥有与 ChatGPT 一样的上下文理解能力,归因能力。

  为了让人类与科技的关系真正超越屏幕,我们应该一些完全不同的东西。」Humane 联合发起人 Chaudhri 说道。

  这款新硬件的未来似乎并不明朗,有质疑也有支持,支持者认为这就像第一代 Ipod,为智能手机变革奠定了基础。

  但是由此可见,以 AI 为核心的交互模式,不再局限在某个屏幕上的下一代智能硬件范式,几乎成为共识。

  如果我们现在将汽车作为一种硬件来看待,那么实际上,真正的智能汽车,也应该遵循下一代智能硬件范式,以 AI 为核心。

  真正理解用户的意图,并且通过用户的行为推理出合适的操作,使用户得到满足的需求。

  百度在智能化的长期投入几乎都在极越上得到了体现,不论是 10 年之前,百度大范围的科研投入放到无人驾驶;9 年前推出的小度;还是 6 年前,百度彻底转型 AI 和人工智能;亦或是 4 年前,他们与国外同期搭建了学习型的文心大模型,以及两年前文心一格等 AIGC 内容生成应用的出现,直到今年三月「文心一言」的横空出世。

  极越获得了这一些内容的深度加持,极越承载的使命是将百度这些能力具象到真实世界,与用户进行真实的交互。

  所以在车型设计之初,极越就确立了以 AI 为核心的理念,也喊出了汽车机器人的口号。

  极越是第一批搭载最新高通 8295 芯片的车型,这是为了能够更好的保证整个智能座舱大脑能在足够的算力上运行,也为了能够更好的保证百度的智能生态应用都能有机会在车上运行。

  保证了算力基础,再加上百度业界领先的智能化水平,那就到了执行层面,如何让智能座舱与用户进行更加顺畅的交流和响应。

  极越的逻辑是:既然以 AI 为核心,那么就可以从「自然交流」出发,让汽车从传统的生产生活工具。

  硬件好理解,而软件就比较有有意思,这里讲的不是应用层,而是算法层,想要人机达到「自然交流」,首先要做到「全场景」。

  以语言能力举例,现在座舱语言大部分都是基于在线语言模型,但如果是无网络状态下语音的使用会大打折扣,而极越的本地离线语音模型。

  一般来讲,语音识别系统由几个部分所组成:将音频片段(通常为 10 毫秒帧)映射到音素的声学模型、将音素连接起来形成单词的发声模型,以及一个表达给定模型的语言模型。

  2014 年左右,谷歌研究人员开始专注于训练单个神经网络,将输入音频波形直接映射到输出句子。

  虽然这些模型在准确性方面表现出极大的前景,但它们通常会检查整个输入序列,并且在输入时不允许输出,这是实时语音转录的必要特征。

  这对于后来创建 RNN-T 架构是一次重要的里程碑,也被看作是 CTC 技术的一次泛化。

  发展到如今,CTC 早已不是新名词,它在工业界的应用十分成熟,到了 2021 年 例如,在百度早在 2019 年公布的在线语音模型在 CTC 的基础上还融合了 Attention。

  与谷歌关注移动端推断不同,百度的语音识别更关注在线的实时推断,他们提出了一种名为「流式多级的截断注意力(SMLTA)」模型。

  SMLTA 模型最核心的概念是利用 CTC 模型的尖峰对连续音频流做截断,然后在每个截断的小语音片段上进行注意力建模。

  这种模型利用了截断多级注意力对长句建模的优势,同时也解决了 CTC 模型的插入或删除错误对注意力模型的影响。

  百度的 SMLTA 大多数都用在在线语音识别,但通过对 Deep Peak 2 模型的大量工程优化,它也能提供离线语音识别。

  而离线语音模型主要解决了两个重要问题:「通信网络的延迟」和「固有的不可靠性」。

  所以极越 01 几乎取消了所有的实体按键,以语音作为交互方式,就像与副驾的自然交流一样。

  直接通过语音告诉 Simo 你要做的事情。例如副驾可以说需要开门,此时只有前方右边车门会被打开,这在其他车型上是难以看到的。

  通过声纹识别之后,用户都能够在车外要求打开车门,这里面比较有意思的是泊车,极越的能力是:泊车时如果有行人挡住车辆进退路线,视觉感知到后也会车外语音和行人说「正在泊车,请让一让」。

  这个功能非常容易被理解成「炫技」,但为了炫技在车上增加几个外扩扬声器,以及让工程团队花绝对的时间去开发,这在整个汽车行业成本控制都趋于极限的条件下,显然不合理。

  低速泊车场景和高速行车不同,除了目前是两套技术栈,还有就是场景不同带来的行车策略区别,低速场景里的参与者和复杂度往往并不低,对于感知识别和车控精度要求甚至更高,特别是盲区范围和数量更多。

  而且将语音同智驾做融合要涉及底层开发,我们都是知道极越 01 是浩瀚平台上的产品,夏一平说过,浩瀚为咱们提供了一个强有力的四肢,但极越自己定义了大脑,这个大脑具体是指,从底层自研的电子电气架构到域控能力一体化,再到先进算法所组成的智能化能力。‍‍‍‍‍‍‍‍‍‍‍

  这套架构还进一步打通了智驾域和座舱域,实现了高速和低速泊车环境下的语音指令功能。‍‍‍‍‍‍‍‍‍‍‍‍‍

  比如,PPA 开启时能够最终靠语音实现变道指令,泊车时能够最终靠辅助驾驶的感知系统,实现对外部行人的识别。‍‍‍‍‍‍‍

  简单说就是,智驾域要给智舱域控制器发一个信号,说有个人在泊车行车路线上,让系统通过语音去跟这个人交互,说让他让一让。

  其实就一句话:实现「正在泊车,请让一让」这句话,是需要很多工程能力的,同时它是一套安全策略。

  当产品的核心不再是简单加上一些屏幕,减少一些按键,而是对整个交互方式来进行重新思考时,才会有新的座舱体验。

  目前智能座舱还在一种无序的状态,每个厂商都有自己的理解,每个厂商都有着一个自己的产品形态,实质是没有构建出一种新的产品体系,像是大爆炸前的混沌宇宙。

  如果我们大家都希望我们的智能化伙伴能够真正理解我们的需求,那么就需要更多与它们交流的时间和场合;就像我们大家都希望交到一个真实的朋友,那么我们应该更多时间与他相处,更多真实情感的交流。

  通过小度上车,SIMO 可以与小度共享同一个主人,共享主人的偏好,更能理解用户的需求。

  例如:停好车之后自动打开家里的空调,上电梯之后,车辆自动开到电梯口来接你,通过小度与家里人直接对话。

  这些普通的新势力是没办法完成的,整个家居生态它们并不满足,目前看华为、小米、极越更加完整,也拥有更多未来的拓展的可能性。

  有别于传统的人工智能概念(如 ChatGPT),强调具有真实世界的物理实体,但也有别于传统机器人行业,强调有充足的自我决策和归因能力。

  当我看到极越 2022 年将汽车机器人作为主要宣传方向时,我知道极越不将自己局限在一个汽车概念上,而是拥有足够的智能化能力,只是汽车作为物理形态的一种产品。

  这与 2023 刚流行的具身智能的概念不谋而合,是一种全新的产品定义方式。

  我们可以期待一下,跳脱出汽车概念的极越,在人工智能变革的当下,还能带给我们哪些惊喜?

  Momenta CEO曹旭东:无人驾驶没有百亿美金公司,要么千亿美金、要么被收购或淘汰

  声明:本文由入驻搜狐公众平台的作者撰写,除搜狐官方账号外,观点仅代表作者本人,不代表搜狐立场。

上一篇:2023年中国AI行业概览 下一篇:这场英文演讲值得一听:技术创新上西方该改变对中国的偏见了! 双语