做购物网站的初衷永安网页设计

张小明 2025/12/28 23:17:59
做购物网站的初衷,永安网页设计,wordpress工具栏,网站建设上线问题1 解决的 gap 和 motivation首先#xff0c;RGSD#xff08;reference guided skill discovery#xff09;这篇文章做的是技能发现#xff08;skill discovery#xff09;#xff0c;即#xff0c;希望 agent 在没有人工设定奖励的情况下#xff0c;自己学出一组多样且…1 解决的 gap 和 motivation首先RGSDreference guided skill discovery这篇文章做的是技能发现skill discovery即希望 agent 在没有人工设定奖励的情况下自己学出一组多样且有意义的技能以便后续用于各种任务如走到某处、躲避障碍。然而现有的 skill discovery 方法在高自由度的系统中如 69 维动作、359 维状态的 SMPL 人形机器人容易学出杂乱无章的无意义行为比如抖腿 抖手而非站立 跑步这种行为。高自由度系统中探索空间太大而真正有意义的技能只占一小部分。因此一个自然的想法是我们可否利用一些参考reference即预先给定的 expert 轨迹来引导 agent 学更有意义的行为呢RGSD 在试图做这件事它的故事是希望利用参考轨迹预先构建一个 focus on 有意义 skill 的 skill latent space然后在这个 latent space 里做 skill discovery。原文是这样说的为了克服高自由度技能发现中的维度灾难我们需要预先构建一个语义上有意义的技能潜在空间并将探索限制在该空间内。在另一个角度RGSD 是一个介于 skill discovery 和 imitation learning 之间的方法传统无监督方法如 DIAYN、METRA通过最大化 skill 与 state 的互信息来鼓励多样性但在高自由度系统中容易学出杂乱无章的动作如四肢乱晃。模仿学习方法如 ASE、CALM能较好地复现 reference motion但缺乏发现新技能的能力学到的技能范围窄。一句话总结RGSD 通过先用 reference 轨迹构建有语义的 skill latent space再在该 space 中并行进行 imitation learning 与 skill discovery有效解决了高自由度系统中技能“无意义”的问题既能高保真模仿又能自动发现相关新技能且在下游任务中表现优异。2 具体 method2.1 DIAYN 简述DIAYN 的核心思想是不同的技能应该导致不同的状态分布。目标最大化技能变量和状态之间的互信息。互信息分解。技能分布本身的熵鼓励技能多样性通过固定一个均匀分布的先验来最大化。给定一个状态技能的不确定性应该很小即从一个状态应该能很容易地推断出是哪个技能产生了它。实现方式引入一个判别器编码器它负责根据状态来预测技能。策略的奖励函数被设计为鼓励访问那些能让判别器轻松识别出技能的状态。DIAYN 奖励公式鼓励策略访问能让技能被准确识别的状态。作为一个先验项如果某个技能很少被采样小则奖励更高从而鼓励探索所有技能。2.2 RGSD 阶段一预训练构建有语义的 latent space目标将 reference motion即 trajectory的 embedding 嵌入到一个单位超球面中使得同一 motion 的所有状态嵌入方向一致不同 motion 的嵌入方向分离。方法使用对比学习InfoNCE Loss训练编码器。编码器建模我们将建模为一个 von Mises–Fisher (vMF) distribution好像可以理解为球面上的高斯分布其中是网络输出的均值方向已归一化是集中度参数。对比学习从数据集中采样一个 motion。从中采样两个状态作为 anchor和正样本从其他动作中采样状态作为负样本。计算它们的嵌入。优化 InfoNCE loss关于为什么可以写成 infoNCE loss附录有相关数学其中余弦相似度是温度系数。结果预训练后同一动作的所有状态都有相同的嵌入方向。2.3 RGSD 阶段二并行 imitation learning 与 skill discovery在阶段一我们只训练了 encoder而没有训练策略。此阶段策略开始与环境交互并学习。模仿和发现共享同一个 policy network并且共享同一个奖励函数形式即 DIAYN 的奖励但技能的采样方式不同。技能的采样以概率模仿采样一个参考动作计算其平均嵌入。让策略执行技能。以概率发现从标准正态分布采样并归一化。计算 reward我们将预训练的编码器冻结记为。然后初始化一个可训练的发现编码器其参数从复制而来。reward 公式对于模仿任务奖励是当前状态与目标技能的相似度通过冻结的、完美的编码器计算。对于发现任务奖励是标准的 DIAYN 奖励但编码器是可训练的。编码器更新模仿通过最大化来学策略。发现为了防止在发现过程中破坏已学到的潜在空间我们添加一个 KL 散度的 loss 项。策略更新使用 PPO 作为 RL 算法最大化上述奖励以及策略的熵来更新策略。2.4 这篇文章的 trickTo exploit this local concavity in practice, we apply early termination: whenever the agent deviates from the reference motion beyond a specified threshold measured by cartesian error, the episode is terminated. 为了在实践中利用这种局部凹陷我们应用了早期终止每当智能体偏离参考运动超过笛卡尔误差测量的指定阈值时该情节就会终止。we adopt reference state initialization (RSI), which samples initial states directly from the reference motions. RSI prevents the emergent of disjoint skill sets by ensuring that imitation and discovery operate over overlapping state distributions. 我们采用参考状态初始化RSI直接从参考运动中对初始状态进行采样。RSI 通过确保模仿和发现在重叠的状态分布上运行来防止不相交技能集的出现。为了在发现过程中保护学习到的潜在空间我们从冻结的初始化一个单独的编码器并加一个最小化这两个 q 之间的 KL 散度的 loss。我们并行训练发现和模仿with a ratio parameter p以概率 p 进行 imitation learning1-p 进行 skill discovery以便共享策略和价值函数能够将高保真行为的知识从模仿转移到发现中。这两个过程共享相同的奖励函数和潜在空间形式因此这些共享组件可以稳定地优化。为确保训练稳定所有方法都采用了提前终止条件每当机器人摔倒时该回合即终止。LGSD 也是这样的使用这种方法把 metra 卡下去了在做实验比较的时候对于 CALM由于它也包含运动编码器因此选择能够代表每个运动的正确潜在变量是直接的。对于没有编码器的方法我们均匀地采样 500 个潜在向量选择其中使笛卡尔误差最小的一个并使用这个向量重新评估以确保公平性。我们发现 500 个样本是足够的因为进一步增加数量并没有带来明显的改进。感觉这样做是好的、公平的值得学习实验里比较公平的细节或许应该写出来3 实验实验 setting环境Isaac Gym 中的 SMPL 人形机器人69 维动作359 维状态。数据集ACCAD 运动数据库中的 20 个参考动作走路、跑步、侧步 sidestepping、后退、出拳等。评估指标模仿保真度Cartesian 误差位置误差、FID 分数运动自然度。这两个 metrics 的介绍可参考博客。技能多样性能否发现与 reference 动作的新变种如往不同方向走的 sidestepping。下游任务性能如“sidestepping 到达目标”任务的成功率。实验结果模仿效果RGSD 在多数任务上 Cartesian 误差最低如跑步误差 7.7cm表明能高保真复现参考动作。技能发现能生成语义相关的新技能如不同方向的侧步、多角度出拳且 FID 分数稳定说明新技能既多样又自然。下游任务在“侧步到达目标”任务中RGSD 成功率与 CALM 相当但运动保真度更高FID 34.3 vs. CALM 的 46.7。4 为什么 RGSD 不能与 metra 相结合根据论文原文这部分对应论文 5.4 节和附录 F。核心原因METRA 的奖励机制与“重复性动作”存在根本性冲突而这类动作是 RGSD 技能库的重要组成部分。具体来说问题体现在以下三个层面奖励计算失效METRA 的奖励是它鼓励 agent 在 latent space 中沿着技能方向产生位移。然而对于重复性动作如行走一个周期结束后智能体在局部坐标系下的姿态与起始姿态几乎完全相同。因此导致奖励。这意味着执行一个完美的周期行为反而无法获得任何奖励这与奖励最大化的目标相悖。状态增强的副作用方案一添加全局坐标。 在 agent 越跑越远的情况下这可以区分和但带来了新问题全局坐标是无界的RGSD 声称 METRA 会轻易利用这一点智能体只需学会向不同方向移动就能最大化奖励而无需学习有意义的身体动作如摆臂、迈腿。这导致 latent space 被全局坐标主导技能发现失败。方案二添加时间变量即当前的 timestep 值。这同样能区分状态但同样带来新问题时间变量会迫使 latent space 形成一个以时间为刻度的“等高线”结构。在探索时RGSD 声称agent 从一个时间步跳到下一个时间步可能在潜在空间中产生巨大的、不连续的跳跃例如跨过“等高线”组成的山从一侧跳到另一侧这违反了 METRA 要求相邻状态潜在距离小于 1 的约束。最终导致训练变得极不稳定。与 RGSD 设计哲学的冲突RGSD 的核心是预先构建一个稳定、语义清晰的超球面潜在空间。而 METRA 为了最大化技能差异其学习过程会动态地、剧烈地改变潜在空间的结构如附录 F 图 7 所示。这两种 latent space 处理方式是相互矛盾的。因此将 METRA 的探索机制强加于 RGSD 预结构化好的空间上会破坏后者的语义基础。5 相关思考abstract 里的 manifold 这个词第一次见比较新奇思考encoder 设置成会不会没那么好用导致跑步时的各种姿势都被映射到同一个 z 上并且各个 motion 可能会包含一些公共 state会不会更好一些fig 4 用俯视图的轨迹来说明 skill 的多样性这确实符合 skill discovery 工作的可视化的惯例。然而它表现出多样行为如不同角度的转弯的 skill所对应的 skill 都是同一个。因此这好像跟狭义上的 skill discovery 的多样性不太 match即它并不是不同 skill z 能生成不同的行为不过在某种程度上它确实学到了不同的行为。如果在同一个 z 下动作也是 diverse 的这意味着什么意味着比如说不同角度的转弯所对应的动作都被映射到了同一个 embedding 下。思考embedding 有这样的性质要不因为 RGSD 的预训练训出来就会这样毕竟有一个 KL 散度的 loss 约束 embedding 不能变太多要不因为 RGSD 的 policy 不小心做出了不同角度的转弯为了让 agent 的 reward 最大化就也允许不同角度的转弯了。如果 RGSD 是真的那么 RGSD 用 metra 不 work或许是因为 metra 更注重结果metra 这类方法每一步的 reward 都是裂项出来的所以没法学到原地打转 过程性的技能。合作者说这篇文章的理论都是对的只不过假设一个 motion m 里的所有 state 映射到同一个 embedding这个假设有点奇怪。公式 6 7 求导得到的那个常数 C 项合作者有些怀疑正确性
版权声明:本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若内容造成侵权/违法违规/事实不符,请联系邮箱:809451989@qq.com进行投诉反馈,一经查实,立即删除!

如何快速做网站关键词服装html网站模板下载

Vue日历组件V-Calendar终极指南:从入门到实战精通 【免费下载链接】v-calendar An elegant calendar and datepicker plugin for Vue. 项目地址: https://gitcode.com/gh_mirrors/vc/v-calendar V-Calendar是一个优雅且功能强大的Vue.js日历和日期选择器插件…

张小明 2025/12/27 22:57:50 网站建设

庄河网站建设修改wordpress登录密码忘记

第一章:Open-AutoGLM部署完成后服务启动概述Open-AutoGLM 在完成部署后,服务的正确启动是确保模型推理能力可用的关键步骤。系统通常基于容器化架构运行,依赖 Docker 和 Docker Compose 管理组件生命周期。启动前需确认配置文件已就位、端口未…

张小明 2025/12/27 22:57:18 网站建设

江西省城住房和城乡建设厅网站建设网站写需求分析

快速体验 打开 InsCode(快马)平台 https://www.inscode.net输入框内输入如下内容: 生成两份对比代码:1. 传统方式手动实现的UniApp二维码生成页面 2. AI辅助生成的相同功能页面。要求包含:输入框、生成按钮、二维码展示区域、保存功能。统计…

张小明 2025/12/27 22:56:46 网站建设

网站拍照的幕布宣传型网站功能定位

第一章:Open-AutoGLM智能体模型Open-AutoGLM 是一种基于生成语言模型(GLM)架构构建的智能体系统,旨在实现自主任务规划、工具调用与多轮交互决策。该模型融合了指令微调、思维链推理与外部工具集成机制,使智能体能够在…

张小明 2025/12/27 22:56:13 网站建设

马关县网站建设wordpress 代码生成二维码

RePKG:Wallpaper Engine资源处理工具完全指南 【免费下载链接】repkg Wallpaper engine PKG extractor/TEX to image converter 项目地址: https://gitcode.com/gh_mirrors/re/repkg 基础认知:解决资源处理的核心问题 为什么需要专业的资源处理工…

张小明 2025/12/27 22:55:41 网站建设

张家港企业网站设计网络平台开发

第一章:Open-AutoGLM 能干什么Open-AutoGLM 是一个面向自动化自然语言处理任务的开源框架,专为简化大语言模型(LLM)在实际业务场景中的应用而设计。它支持任务自动拆解、工具调用、多步推理与结果聚合,适用于复杂文本理…

张小明 2025/12/27 22:54:38 网站建设