天津做系统集成的公司网站开发一款交友app要多少钱-内蒙古自治区网站建设公司-Seo优化

天津做系统集成的公司网站,开发一款交友app要多少钱,数据分析师报考条件及科目,太原学网站开发的学校2025.12.17#xff0c;PI发布了关于human data的研究#xff0c;于是就有了不少关于PI放弃真机转向视频数据的解读这里用简短的话澄清#xff1a; PI的新研究其实是将少量human data用于微调预训练VLAπ0.5#xff0c;从而实现人类到机器人的技能迁移#xff0c;且无需任…2025.12.17PI发布了关于human data的研究于是就有了不少关于PI放弃真机转向视频数据的解读这里用简短的话澄清PI的新研究其实是将少量human data用于微调预训练VLAπ0.5从而实现人类到机器人的技能迁移且无需任何明确的手动对齐步骤证明了这种迁移是VLA预训练多样性的涌现特性。换句话说在预训练数据足够丰富包含多种场景、任务和机器人形态时人类数据和机器人数据的embodied gap将不复存在。而这样的VLA恰恰是基于大量的真机数据预训练而来的何谈技术转向。几点发现先写在前面- 预训练数据足够丰富和多样的VLA在后训练阶段加入human data可以实现未见场景、任务和物体的泛化- 在预训练VLA足够丰富和多样的情况下humandata的效果近似于一个新本体采集的数据但依旧不如原本机器人采集的数据。- 之所以能弥合人和机械臂的具身差异是因为预训练涌现出了本体无关的特征捕捉。还是因为基座模型足够强才能让之前不好被学习的数据有了被学习的可能1. 简单回顾视频数据在学习中的挑战是什么以及学术界是怎么解决的human data在2025年引来众多学者的关注Optimus、Figure通过观看视频学习新技能大规模 egocentric数据集build ai 发布也助推了热潮。但视频数据并不好学。就如我们在这篇文章通往具身Chatgpt时刻的法宝特斯拉Optimus押注的人类视频数据方法全解析——问题、现状与前景提到的视频数据有两大核心问题一个是不存在显性的机器人可学习的信息一个是机器人和人的本体差异太大从外观、自由度、灵活度都差异都极大。学术界主要形成了两大解决思路我们借用综述《A survey of robot learning from demonstration》的“记录映射”和“形态映射”概括它们本质上都是在尝试解决一个“翻译问题”——如何将人类的行为翻译给机器人。记录映射旨在将视频中缺乏机器人直接学习的信息如任务意图、常识、轨迹、目标图像和奖励规则转化为机器人可用的形式。而形态映射往往采用工程化的手段比如将人手姿态归类成夹爪开合使用 CycleGAN 等方法将人类演示视频“翻译”成机器人视角或使用图像修复技术移除人手或者只关注操作对象及其变化。2. PI如何收集human data的方法PI 团队为了实现通用且可扩展的人机交互数据采集设计了一套低侵入性的具身人类数据采集方案,2.1 数据采集设备利用iphone作为头戴式摄像头作为人类数据的“第一视角”来源。采集者将iphone佩戴在头上利用其高分辨率摄像头用于捕捉类似于机器人自我中心观察的视频流。2个腕部摄像头借鉴了机器人研究中腕部摄像头对策略学习的益处提供末端执行器与物体交互的详细视角采集者试验性地佩戴了两个额外的、时间同步的腕部摄像头。2.2 方式和规模遥操作式分段采集风格数据是按照分段式机器人遥操作数据的风格收集的要求操作员重复执行任务并尽量将双手保持在镜头视野内以提高追踪质量。数据量团队共收集了约数十小时的具身人类视频数据包括“收拾”3小时、“整理香料”3小时、“整理梳妆台”3小时和“分类鸡蛋”5小时等任务。3. PI的独特性无需工程多样预训练即可消除具身差异他们没有沿用传统的“工程化对齐”思路而是用泛化和diversity来解决具身差异的问题。他们选在在强大的π0.5的预训练模型上把视频数据加入后训练部分构建统一的动作与语义空间首先PI团队依然需要将采集到的原始人类视频数据处理成与机器人数据格式兼容的形态。动作对齐他们通过视觉算法从视频中重建出头部的6D运动轨迹和双手的3D关键点。这里的关键一步是他们通过巧妙地选取手掌、中指和无名指的关键点虚拟地定义了一个人类的“末端执行器”6自由度6-DOF位姿并计算其在时间序列上的相对变换作为动作指令。这种巧妙的定义使得人类的手部动作和机器人的末端执行器动作在表示上实现了大致对齐无需复杂的运动学模型转换。语义对齐与处理机器人数据一样PI为人类视频数据标注了密集的文本子任务subtasks例如“pick up the pillow”拿起枕头。这使得模型可以在更高层次的语义上理解人类行为并将其与机器人的任务指令进行对齐。核心突破用“多样性预训练”取代“工程化手段”解决具身鸿沟完成了基础的数据格式对齐后PI面对“具身鸿沟”时做出了一个与众不同的选择提出了其核心假设观点“人类到机器人的技能迁移是多样化视觉-语言-动作VLA模型预训练的一种涌现能力Emergent Property”。论文明确指出他们没有使用任何传统的“工程化手段”如图像翻译、图像修复inpainting或复杂的运动学映射来强行弥合人与机器人在外观上的差异。图注模型架构我们使用 π0.5 模型。我们在人体数据和机器人数据上通过将高层子任务预测与低层动作预测相结合的方式进行微调。低层动作预测利用了在人与机器人之间对齐的相对末端执行器end-effector动作。而是使用的是π0.5 — 一个本身就具备强大零样本泛化能力的VLA模型首先在一个规模庞大且极具多样性的机器人数据集上进行了预训练。这个数据集的成功秘诀在于多样性它包含了大量的不同场景、不同任务以及至关重要的——不同的机器人本体。这种大规模、跨本体的预训练迫使模型去学习任务的抽象本质例如“拿起一个东西”而不是某个特定机器人在特定场景下的特定动作。久而久之模型内部形成了“本体不可知embodiment-agnostic”的表征。当这样一个强大的预训练模型在后期用PI采集的人类视频数据进行微调时奇迹发生了。模型能够自然地将“人类”视为“又一种新的机器人本体”来学习。由于其内部表征已经是“本体不可知”的它能轻易地理解人类演示的意图和动作并将技能顺畅地迁移到自己身上整个过程无需任何额外的人工对齐。图注human data一种新的“机器人形态”4. 核心结论这份研究得出了以下六个核心结论4.1 π0.5egocentric human video方法能够实现向未见场景、物体和任务的泛化通过有针对性地收集人类视频数据并进行协同训练机器人策略在泛化的三个主要轴线上获得了显著提升证实了该方法能够有效将人类数据中独有的新概念迁移给机器人策略。场景泛化Scene Generalization针对机器人数据中未见过的家庭环境例如“整理香料架”和“整理梳妆台”协同训练后任务成功率显著提高。“整理香料”任务成功率从 32% 提升至 71%。“整理梳妆台”任务成功率从 25% 提升至 50%。物体泛化Object Generalization在“收拾桌子”Bussing任务中机器人学会了处理人类数据中引入的新物体类别如新的厨房工具得分从 53% 提高到63%。任务泛化Task Generalization针对机器人数据中从未有过的语义概念例如“按颜色分类鸡蛋”协同训练后机器人策略能够以78%的准确率进行分类平均比仅使用机器人数据训练的模型多正确放置 4 个鸡蛋。能实现得有多好类似于换一个机械臂PI 团队把“人到机器人”的迁移看成一种典型的“跨具身形态迁移”并把它分别拿来和两类数据做对比一类是目标机器人自己在同一任务/同一环境里采到的域内数据另一类是其他机器人非目标机器人采到的数据。接近域内上限对于“分类鸡蛋”和“整理梳妆台”这两项任务用人类数据进行微调几乎与用目标机器人本身的域内数据进行微调一样有效。与跨具身相似在“收拾”Bussing任务中人类数据迁移到 ARX 的效果和另一台非目标机器人UR5迁移到 ARX 的效果很像——两者都能让表现比纯粹用π0.5更好但都不如直接用目标机器人域内数据来得强。这说明人类数据的迁移特性和“跨机器人形态迁移”是相似的。也就是说human data好用类似于一个形态不同的新臂采出来的数据但是也不如自己原来的臂采出来的数据好用4.2 人类到机器人的迁移是多样化 VLA 预训练的涌现特性图注人类数据带来的绝对性能提升 vs 预训练多样性这项研究的核心发现是人类到机器人的技能迁移不是随着数据简单线性增加的而是 VLA 模型预训练多样性达到一定阈值后才出现的突现特性。规模与增益关系实验发现人类数据带来的性能提升增益随着预训练多样性跨场景、任务和具身的增加而显著增大。临界阈值在预训练多样性不足0% 或 25%的情况下VLA 模型无法从人类数据协同训练中受益。最大收益只有当 VLA 在多样化数据75%、100%上进行预训练后协同训练人类数据才能带来显著的性能提升。跨具身预训练的放大作用通过在包含来自多种非目标机器人具身的跨具身数据混合100% X-emb上进行预训练迁移效果得到进一步改善。零样本与迁移的不完全相关性研究指出在某些情况下增加预训练多样性并不能提高机器人对新任务的零样本泛化能力但它确实显著改善了模型从人类数据中迁移知识的能力。例如“分类鸡蛋”任务的机器人微调性能会趋于稳定但加上人类数据后性能会随着预训练多样性急剧扩展。4.3 涌现能力源于具身无关表征的形成多样化的预训练之所以能够实现迁移是因为它促使模型形成了具身无关的表征embodiment-agnostic representations从而在潜在空间中对齐了人类和机器人的轨迹。简单来说模型不再把机器归为机器人归为人而是捕捉了其中的共同特征。表征对齐随着预训练多样性的增加VLA 模型潜在空间中通过 TSNE 分析可视化人类数据和机器人数据的表征自然趋于收敛和对齐。不相交到统一在预训练不足时模型对人类和机器人数据持有不相交的表征。随着预训练多样性增加模型开始为这两种具身构建一个统一的表征。克服域差异这表明在足够的数据覆盖下尽管存在巨大的视觉和运动学领域差异模型也开始捕捉跨领域的共享结构。这种具身无关的抽象能力正是迁移的内在机制。这张图应该怎么理解左图0% Pre-training黄色和蓝色几乎分成两坨隔得很开。模型一眼就能分出“这是人/这是机器人”它的表征强烈带“来源域标签”。会导致迁移会难因为人和机器人在特征空间里不在一个“语言体系”。中图50% Pre-training两坨开始靠近有部分区域开始混。模型开始学到一些通用概念但还是有明显域差。右图100% Xemb Pre-training黄点和蓝点大量重叠沿着相似的形状分布。模型把“同一种行为/子任务”不管是人做还是机器人做都编码到差不多的位置。这会使得跨具身迁移更容易因为你在训练时学到的“规律”在部署到另一种身体上仍然成立。4.4 迁移同时发生在高级HL和低级LL两个层面研究探究了人类数据知识迁移发生的层次发现在任务执行中知识的迁移需要同时通过高级子任务预测和低级动作预测两个通道。联合训练的必要性对于依赖规划的移动任务如“整理香料”和“整理梳妆台”仅利用人类数据来训练高层HL策略或低层LL策略不如用人类数据协同训练两者有效。失败模式佐证如果仅在高层策略中利用人类数据HL-Only低级策略可能会错误地解释命令例如将“拿起香料瓶”误解为拿起已在托盘上的瓶子。如果仅在低层策略中利用人类数据LL-Only高层策略则会预测出较差的命令例如在瓶子被拿起很久之后仍继续预测“拿起香料瓶”阻碍任务进展。低级动作的迁移对于像“收拾”和“分类鸡蛋”这样在评估期间不使用高层策略的任务迁移必须完全来自于低级动作预测这证实了低级动作信息也被有效地迁移了。4.5 人类佩戴的腕部摄像头能有效弥合传感器差距提升特定任务的迁移效果为了缓解人机之间的传感器差距团队在数据采集中使用了人类佩戴的腕部摄像头。研究发现这些额外的摄像头流对于某些任务的迁移是重要的。任务依赖性腕部摄像头对“收拾”Bussing和“整理梳妆台”Dresser任务的迁移有益导致性能提高。可观察性这符合直觉因为有些任务如需要精细操作的梳妆台整理比其他任务更依赖腕部摄像头提供的增强可观察性。因此收集带有腕部摄像头的具身人类数据可以最大限度地覆盖潜在的任务空间。4.6 技术博客翻译VLA模型中人到机器人迁移能力的涌现图注通过人类视频数据和多样化且大规模的机器人数据涌现出新的机器人能力大语言模型中最令人兴奋或许也最具争议的现象之一就是涌现emergence。随着模型和数据集变得越来越大一些能力如上下文学习和有效的思维链推理只有在超过特定规模时才会开始出现。大语言模型在规模化后涌现出的能力之一就是更有效地利用数据的能力这既通过组合性和泛化性实现也通过利用其他数据源如通过强化学习生成的合成数据来实现。随着我们扩大基础模型的规模它们变成了通才能够以小模型无法做到的方式吸收多样化的数据源。在这篇文章中我们将讨论我们最近的一些结果这些结果表明随着我们扩大机器人训练数据的规模机器人基础模型中涌现出了从人类视频到机器人任务的迁移能力。基于这一发现我们开发了一种利用人类第一人称视角数据来改进我们模型的方法在机器人数据有限的任务上实现了约2倍的改进。4.7 机器人领域的涌现能力是什么样子的像这样的现代视觉-语言-动作VLA模型可以通过在包含许多不同机器人和网络数据的海量且多样化的数据集上进行训练来实现广泛的开放世界泛化能力。随着规模的扩大这些模型是否会获得利用新数据源的涌现能力我们特别关注第一人称视角egocentric的人类视频作为这样一种数据源这种数据可以通过可穿戴相机录制。这类数据很容易记录但用它来训练机器人面临着一个挑战也就是所谓的领域鸿沟domain gap人类和机器人看起来不同运动方式也不同机器人无法直接模仿人类。在最近的研究工作中使用此类数据通常需要某种人工对齐例如遮挡图像的一部分或者使用生成模型将人手转换为机械手。有些方法甚至尝试改变机器人硬件以更好地与人类动作对齐例如使用人形机器人。虽然这些方法可能有效但它们在获得可迁移性的同时往往损失了通用性。我们要看看仅仅扩大机器人基础模型的规模是否就能在没有任何显式迁移学习机制的情况下实现涌现性的人到机器人的迁移。4.7方法π0.5第一视角视频数据研究团队基于一个强大的视觉-语言-动作VLA模型π0.5提出了一套名为 π0.5 ego 的微调Fine-tuning方案。4.7.1数据收集像机器人一样记录人类为了让模型更容易理解研究者让采集数据的人员佩戴了类似机器人的传感器头戴式摄像头模拟机器人的主视角。手腕摄像头在左右手腕佩戴小型相机模拟机械臂末端的相机这在后续实验中被证明对精细操作很有用。4.7.2 数据处理把人手翻译成末端执行器模型需要知道动作是什么。研究者没有使用复杂的全身动捕而是采用了一种简化的映射逻辑3D关键点追踪追踪人手的三个点手掌、中指、无名指。坐标转换计算这些点相对于头部的位姿变化将其转化为类似机械臂末端执行器的轨迹End-effector trajectories。语言标注给每一段视频加上文字描述例如“把白色鸡蛋放进左边的盒子”。4.7.3 混合训练Co-training这是最关键的一步。研究者并没有设计特殊的损失函数来强行拉近人和机器人的距离而是直接将人类数据和机器人数据按 1:1 的比例混合一起对模型进行微调。模型被要求同时预测高层子任务High-level subtask 下一步该做什么语言描述。底层动作Low-level action 具体的手臂/手掌移动轨迹。例如在鸡蛋分拣任务中机器人数据涵盖了将鸡蛋放入纸盒而人类数据展示了如何将不同颜色的鸡蛋分拣到多个纸盒中——这是用于评估的场景。同样对于整理梳妆台任务机器人数据涵盖了多样化的卧室场景而人类数据展示了如何在特定场景中整理目标梳妆台并将物品放入适当的容器中例如首饰放入首饰盒发圈放入收纳格。令我们惊讶的是发现这个简单的配方实际上非常有效仅仅通过在微调中包含人类视频数据我们的策略在仅存在于人类数据中的4个泛化场景套件中的性能就提高了约2倍。这之所以令人惊讶是因为我们没有包含任何促进迁移的特殊机制。仅仅使用预训练的 π0.5 模型并在数据上进行协同训练我们就实现了涌现的人到机器人的迁移。图注泛化任务上的人到机器人迁移。Bussing - 收拾餐具Spice - 香料架Dresser - 梳妆台Eggs - 鸡蛋Average - 平均 - π0.5 (基准模型) Ego - π0.5 第一人称人类数据我们发现同样的配方甚至可以扩展到更多任务从整理工具箱到分拣水果。但为什么会这样呢真的是预训练的 π0.5 在促成这种涌现迁移中起到了关键作用吗我们想更深入地挖掘这一结果并理解从人类数据中迁移知识与机器人基础模型预训练期间使用的机器人数据的多样性和规模究竟有何关系。也就是说有效从人类数据中学习的能力是否是随着机器人基础模型预训练的规模扩大而涌现的为了回答这个问题我们测量了机器人在人类数据演示的场景中的表现并将其与未使用人类数据的策略进行了比较。我们看到添加人类数据带来的性能提升随着我们扩大预训练模型的规模而增加。预训练模型多样性增加时模型表达大大提高。一个特别明显的例子是鸡蛋分拣任务我们观察到在大约60%的数据集规模后扩大预训练规模不再提升未经过人类视频微调的模型的性能但在使用人类视频微调时性能仍在继续提升。这意味着在预训练中加入更多的机器人数据实际上提高了模型在微调中吸收人类数据的能力为了更好地理解为什么会发生这种情况我们可以检查模型用于人类和机器人示例图像的表征representations。模型特征投射到2D图上的可视化结果如下所示。对于预训练规模较小或完全没有预训练的模型左图中图我们看到机器人数据和人类数据是用非常不同的特征来表示的这表明模型没有成功对齐人类和机器人的示例。但是当我们扩大预训练数据集的规模时我们看到特征排列得更加一致表明涌现出了人机对齐能力。请注意预训练使用的是机器人数据人类数据仅在微调中出现并且在不同模型之间没有变化。这种涌现的人机对齐仅仅源于其他任务中机器人数据数量和多样性的增加。在没有预训练的情况下很明显模型在人类和机器人数据之间具有互不相交的表征。但是随着预训练变得更加多样化潜在空间的重叠增加这与我们在泛化任务上的性能相关。我们通过对来自VLM骨干网络最后一层的均值池化视觉token进行t-SNE分析绘制了我们VLA的潜在嵌入图。5. 下一代VLA模型将解锁什么我们关于人到机器人迁移涌现能力的发现为扩大视觉-语言-动作VLA模型的规模描绘了一幅充满希望的图景。这些结果表明就像大语言模型一样扩大VLA的规模不仅可能带来更好的性能还可能带来新的能力。这些能力可以使利用新的、以前难以使用的数据源成为可能并提供跨领域更有效的迁移这反过来又将允许进一步扩大机器人基础模型的规模。有效利用人类视频可能只是众多此类能力中的一种想象随着我们继续扩大机器人基础模型的规模还有什么新能力会被解锁这令人兴奋。

天津做系统集成的公司网站开发一款交友app要多少钱

网站如何选择服务器深圳上位机软件开发培训

做网站app 需要多少钱深圳给企业做网站

深圳外贸网站建设公司价格网站flash

重庆网站建设报价海南省建设与执业资格注册中心网站

网站建设如何描述wordpress word图表

一些大型网站的服务器需要租用多大的带宽电商主图一键生成免费