李飞飞特别强调,真正的世界模型必须把这三块拼起来。就像理解杯子不只是看到它长什么样,还得知道它容易碎、能装水,这样才能实现从各个角度渲染画面、模拟被推倒的过程,最后规划出怎么安全抓取。举个例子,当机器人看到桌上的咖啡杯,世界模型应该能预判:如果快速移动托盘,液体会因为惯性泼洒;如果从侧面推杯子,它会先滑动再翻倒。这种对物理规律的深层理解,远比单纯生成酷炫画面重要得多。 不过现在大部分演示还局限在实验室里,尤其是模拟器这块,要同时处理刚体、流体、布料等多种物理效果,数据少得可怜,算力消耗又大得吓人。比如模拟一滴水落在布料上的扩散过程,需要计算数万个粒子的相互作用,普通工作站跑一帧就要几分钟。好在World Labs推出的Marble平台正在尝试用多模态输入直接生成可交互的3D环境,通过AI学习真实世界的物理规律,说不定能打破这个僵局。他们最新演示中,用户用手机拍张桌子照片,系统就能自动生成可拖拽、可碰撞的3D模型,连桌布褶皱的物理反应都相当真实。
元鼎证券提示:文章来自网络,不代表本站观点。