🚀 创新设计: DocLLM采用分离的空间注意机制,专注于边界框信息,解决文本和空间模态交汇处的复杂语义问题。
项目地址:https://docs.google.com/document/d/1irisz6f1G4oYaKojqwuU9rSDBV1-VaCh0VkeuIX0sfs/edit?pli=1
引入了感知遮挡的场景参数化,将场景解耦为遮挡、人体和背景三个部分。提出了一种新的渲染框架,分别渲染这三个部分,并设计了新颖的优化目标,以确保遮挡的清晰解耦和更完整的人体呈现。在具有挑战性的遮挡密集野外视频上对方法进行了评估,展示了其在呈现遮挡人体方面的有效性。Wild2Avatar通过与Vid2Avatar(基线)和原始视频的对比,呈现了其在解决被遮挡人物渲染挑战方面的独特性能。
整个炒虾机器人的设计过程中,斯坦福团队综合考虑了移动、稳定性和全身远程操控等因素。他们选择了移动速度接近人类行走速度的Tracer移动底座,并在其上安装了ALOHA机械臂,实现了全身远程操控系统。此外,研究人员还注重机器人的稳定性,使其能够在操作重型物品时保持稳定。整个机器人的设计成本仅为22万元,相比其他类似机器人的价格要低廉许多。
论文网址:https://arxiv.org/abs/2312.17234