UCLA提出多模态具身智能大模型MultiPLY AI首次拥有类人感官

91 0 0

要点:

UCLA等机构的研究人员最近推出了具身智能大模型MultiPLY，该模型具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。

通过与3D环境的交互，MultiPLY在对象检索、工具使用、多感官标注和任务分解等具体任务实验中，表现出比当前技术水平更高的性能。

为了训练MultiPLY，研究人员创建了一个大规模多感官数据集Multisensory-Universe，包含50万条由AI智能体在3D虚拟环境中交互时收集的数据，涵盖了多种任务类型。

1月22日消息:近日，UCLA等机构的研究人员推出了具身智能大模型MultiPLY，该模型不仅具备多模态感知能力，包括触觉、视觉、听觉等，使得AI能够更全面地与3D环境进行交互。这标志着具备多感官能力的大模型成为未来AI发展的重要方向。

UCLA提出多模态具身智能大模型MultiPLY AI首次拥有类人感官

MultiPLY在多任务实验中表现出色，包括对象检索、工具使用、多感官标注和任务分解等，刷新了当前技术水平。为了训练这一新模型，研究人员创建了Multisensory-Universe数据集，包含50万条多感官数据，涵盖了多种任务类型。尽管面临挑战，如当前缺少训练多感官交互的数据和正确表示3D场景的多感官信息，但MultiPLY的出现为实现AGI提供了新的方向。

UCLA提出多模态具身智能大模型MultiPLY AI首次拥有类人感官

在模型训练阶段，研究人员引入了新物体，并通过触觉、环境声音、撞击声音、温度等多种传感器数据获取方式，让模型学会感知物体的多模态信息。

为此，研究人员提出了多感官全景生成管线，通过不同传感器收集触觉、声音、温度等信息。整个训练过程中，MultiPLY通过智能体与3D环境交互，生成多感官观测值，并在推理过程中不断生成动作token，展现出强大的多模态能力。这一研究的出现，为构建更全面、具备多感官能力的大模型提供了新思路。

原文地址：https://www.chinaz.com/2024/0122/1592123.shtml