网站首页 / 母婴育儿 / Waymo 利用谷歌 Gemini 大语言模型，开发端到端自动驾驶模型

Waymo 利用谷歌 Gemini 大语言模型，开发端到端自动驾驶模型

铂懿母婴育儿 2024-10-31 23 17

　　来源：IT之家

　　IT之家 10 月 31 日消息，自动驾驶公司 Waymo 长期以来一直将与谷歌 DeepMind 的联系及其数十年的 AI 研究视为其在自动驾驶领域超越竞争对手的战略优势。现在这家 Alphabet 旗下的公司更进一步，为其机器人出租车开发一种基于谷歌多模态大语言模型（MLLM）“Gemini”的新训练模型。

Waymo 利用谷歌 Gemini 大语言模型，开发端到端自动驾驶模型第1张

　　Waymo 今天发布了一篇新的研究论文，介绍了一种名为“端到端多模态自动驾驶模型”（EMMA）的新模型。这种新的端到端训练模型能够处理传感器数据，生成“自动驾驶车辆的未来轨迹”，帮助 Waymo 的无人驾驶车辆做出关于去哪里以及如何避开障碍物的决策。

　　但更重要的是，这是首次有迹象表明，自动驾驶领域的领导者计划将 MLLM 应用于其业务。这意味着 MLLM 可能不仅仅局限于聊天机器人、电子邮件组织者和图像生成器等领域，而是可以扩展到自动驾驶领域。

　　在研究中 Waymo 提出，传统的自动驾驶系统通常会为感知、映射、预测和规划等各种功能开发特定的“模块”。虽然这种方法在过去多年中效果显著，但也存在可扩展性问题，主要是由于模块间的误差积累和通信有限。此外，这些模块由于是“预定义”的，因此面对“新环境”时适应能力较差。

　　Waymo 认为，像 Gemini 这样的 MLLM 可以解决这些问题。首先，这些模型是经过大量互联网数据训练的“通才”，能提供超出常规驾驶记录的丰富“世界知识”；其次，它们通过“链式推理”等技术展现出“卓越”的推理能力，能够将复杂任务分解为一系列逻辑步骤，模仿人类的思维方式。

Waymo 利用谷歌 Gemini 大语言模型，开发端到端自动驾驶模型第2张

　　Waymo 表示，EMMA 模型在帮助机器人出租车应对复杂环境方面表现良好。例如，当遇到各种动物或道路施工时，EMMA 能够帮助无人驾驶汽车找到合适的行驶路线。

　　IT之家注意到，特斯拉等其他公司也在大力开发其自动驾驶汽车的端到端模型。特斯拉首席执行官埃隆・马斯克声称，最新版本的 FSD 12.5.5 采用了“端到端神经网络”人工智能系统，将摄像头图像转换为驾驶决策。

　　这表明，在部署真正的无人驾驶车辆方面领先于特斯拉的 Waymo 也对追求端到端系统感兴趣。该公司表示，其 EMMA 模型在轨迹预测、物体检测和道路图理解方面表现出色。

　　但 EMMA 也有其局限性，Waymo 承认，在将该模型投入实践之前，还需要进行未来的研究。例如，EMMA 无法整合来自激光雷达或雷达的 3D 传感器输入，Waymo 表示这是因为“计算开销太高”，并且一次只能处理少量图像帧。

　　研究论文中未提及的另一个风险是，像 Gemini 这样的 MLLM 会存在“幻觉”，而无人驾驶汽车的容错率非常有限。因此，在这些模型能够大规模部署之前，还需要进行更多研究。

本文由 @铂懿发布在浙江程聪国际货运代理有限公司，如有疑问，请联系我们。
文章链接：http://zjccgjhy.com/post/52946.html

铂懿管理员

拉加德：欧洲央行通胀目标近在眼前，但抗通胀尚未结束

发表评论取消回复

23人参与，17条评论

丛甲子
2024-10-31 17:00:16回复
，为其机器人出租车开发一种基于谷歌多模态大语言模型（MLLM）“Gemini”的新训练模型。　　Waymo 今天发布了一篇新的研究论文，介绍了一种名为“端到端多模态自动驾驶模型”（EMMA）的新模型。这种新的端到端训练模型能够处理传感器数据，

牟乙亥
2024-10-31 16:44:34回复
些问题。首先，这些模型是经过大量互联网数据训练的“通才”，能提供超出常规驾驶记录的丰富“世界知识”；其次，它们通过“链式推理”等技术展现出“卓越”的推理能力，能够将复杂任务分解为一系列逻辑

毛觅蓉
2024-10-31 22:58:25回复
模型在帮助机器人出租车应对复杂环境方面表现良好。例如，当遇到各种动物或道路施工时，EMMA 能够帮助无人驾驶汽车找到合适的行驶路线。　　IT之家注意到，特斯拉等其他公司也在大力开发其自动驾驶汽车

寿惜萱
2024-10-31 17:30:36回复
　　来源：IT之家　　IT之家 10 月 31 日消息，自动驾驶公司 Waymo 长期以来一直将与谷歌 DeepMind 的联系及其数十年的 AI 研究视为其在自动驾驶领域超越竞争对手的战略优势。现在这家 Alphabet 旗下的公

毋辛卯
2024-10-31 16:34:46回复
在将该模型投入实践之前，还需要进行未来的研究。例如，EMMA 无法整合来自激光雷达或雷达的 3D 传感器输入，Waymo 表示这是因为“计算开销太高”，并且一次只能处理少量图像

茅柔兆
2024-11-01 03:35:10回复
“计算开销太高”，并且一次只能处理少量图像帧。　　研究论文中未提及的另一个风险是，像 Gemini 这样的 MLLM 会存在“幻觉”，而无人驾驶汽车的容错率非常有限。因此，在这些模型能够大规模部署之前，还需要进行更多研究。

蒲丙子
2024-10-31 16:35:21回复
“通才”，能提供超出常规驾驶记录的丰富“世界知识”；其次，它们通过“链式推理”等技术展现出“卓越”的推理能力，能够将复杂任务分解为一系列逻辑步骤，模仿人类的思维方式。　　Waymo 表示，EMMA

智安荷
2024-11-01 01:30:56回复
首先，这些模型是经过大量互联网数据训练的“通才”，能提供超出常规驾驶记录的丰富“世界知识”；其次，它们通过“链式推理”等技术展现出“卓越”的推理能力，能够将复杂任务分解为一系列逻辑步骤，模仿人类的思维方式。　　Waymo 表示，EMMA 模型在帮助机器人出租车应对复杂环境方面表现良好

玄壬午
2024-10-31 22:24:42回复
意到，特斯拉等其他公司也在大力开发其自动驾驶汽车的端到端模型。特斯拉首席执行官埃隆・马斯克声称，最新版本的 FSD 12.5.5 采用了“端到端神经网络”人工智能系统，将摄像头图像转换为驾驶

粟以冬
2024-11-01 01:44:20回复
良好。例如，当遇到各种动物或道路施工时，EMMA 能够帮助无人驾驶汽车找到合适的行驶路线。　　IT之家注意到，特斯拉等其他公司也在大力开发其自动驾驶汽车的端到端模型。特斯拉首席执行官埃隆・马斯克声称，最新版本的 FSD 12.5.5 采

翦涵易
2024-10-31 20:57:15回复
以解决这些问题。首先，这些模型是经过大量互联网数据训练的“通才”，能提供超出常规驾驶记录的丰富“世界知识”；其次，它们通过“链式推理”等技术展现出“卓越”的推理能力，能够将复杂任务分解为一系列逻辑步骤，模仿人类的思维方式。　　Waymo 表示，EMMA 模型在帮助机器人出租车应对

訾代儿
2024-10-31 20:50:41回复
但 EMMA 也有其局限性，Waymo 承认，在将该模型投入实践之前，还需要进行未来的研究。例如，EMMA 无法整合来自激光雷达或雷达的 3D 传感器输入，Waymo 表示这是因为“计算开销太高”，并且一次只能

储平安
2024-10-31 18:43:01回复
子邮件组织者和图像生成器等领域，而是可以扩展到自动驾驶领域。　　在研究中 Waymo 提出，传统的自动驾驶系统通常会为感知、映射、预测和规划等各种功能开发特定的“模块”。虽然这种方法

干甲子
2024-10-31 23:10:30回复
一种基于谷歌多模态大语言模型（MLLM）“Gemini”的新训练模型。　　Waymo 今天发布了一篇新的研究论文，介绍了一种名为“端到端多模态自动驾驶模型”（EMMA）的新模型。这种新的端到端训练模型能够处理传感器数据，生成“自动驾驶车辆的未来轨迹”，帮助 Way

刁丹云
2024-11-01 01:31:14回复
。此外，这些模块由于是“预定义”的，因此面对“新环境”时适应能力较差。　　Waymo 认为，像 Gemini 这样的 MLLM 可以解决这些问题。首先，这些模型是经过大量互联网数据训练的“通才”，能

郝晓卉
2024-10-31 21:32:18回复
lphabet 旗下的公司更进一步，为其机器人出租车开发一种基于谷歌多模态大语言模型（MLLM）“Gemini”的新训练模型。　　Waymo 今天发布了一篇新的研究论文，介绍了一种名为“端到端多模态自动驾驶模

郁戊午
2024-11-01 03:11:24回复
器等领域，而是可以扩展到自动驾驶领域。　　在研究中 Waymo 提出，传统的自动驾驶系统通常会为感知、映射、预测和规划等各种功能开发特定的“模块”。虽然这种方法在过去多年中效果显著，但也存在可扩展性问题，主要是由于模块间的误差积累和通信有限。此外，这

Waymo 利用谷歌 Gemini 大语言模型，开发端到端自动驾驶模型

铂懿管理员

拉加德：欧洲央行通胀目标近在眼前，但抗通胀尚未结束

降息预期生变! 美联储与英国央行12月携手“暂停降息”？

相关文章

发表评论取消回复