通过模拟过去学习做什么-科技信息-生活小百科

通过模拟过去学习做什么

2022-12-19 科技信息 By：佚名

最佳答案使用神经网络学习策略需要手工编写奖励函数或从人类反馈中学习。arXiv.org 上最近的一篇论文建议通过提取环境中已经存在的信息来简化流程。可以推断用户已经针对自己的偏好进行了优化。代理应该采取与用户必须完成的相同操作才能导致观察到的状态。因此，需要在时间上进行逆向模拟。该模型使用监督...

使用神经网络学习策略需要手工编写奖励函数或从人类反馈中学习。arXiv.org 上最近的一篇论文建议通过提取环境中已经存在的信息来简化流程。

可以推断用户已经针对自己的偏好进行了优化。代理应该采取与用户必须完成的相同操作才能导致观察到的状态。因此，需要在时间上进行逆向模拟。该模型使用监督学习来学习逆策略和逆动力学模型以执行反向模拟。然后找到可以从单个状态观察中有意义地更新的奖励表示。

结果表明，使用这种方法可以减少学习中的人工输入。该模型成功地模仿策略，只访问从这些策略中采样的几个状态。

由于奖励函数很难指定，最近的工作重点是从人类反馈中学习策略。然而，此类方法受到获取此类反馈的费用的阻碍。最近的工作提出，代理可以访问一个有效免费的信息源：在人类活动过的任何环境中，状态已经针对人类偏好进行了优化，因此代理可以从状态中提取有关人类想要什么的信息. 这种学习原则上是可能的，但需要模拟所有可能导致观察到的状态的过去轨迹。这在网格世界中是可行的，但我们如何将其扩展到复杂的任务?在这项工作中，我们展示了通过将学习到的特征编码器与学习到的逆模型相结合，我们可以使代理能够及时向后模拟人类行为，以推断他们必须做什么。给定从该技能的最佳策略采样的单个状态，所得算法能够在 MuJoCo 环境中重现特定技能。

上一篇：女孩六岁身高体重各是多少（女孩六岁身高体重标准）

下一篇：松果体激素是什么（松果体激素的功效与作用）

通过模拟过去学习做什么

羽博还是罗马仕好用（羽博和罗马仕哪个好）

微信上地区怎么改（微信地区怎么改特殊的）

三星以超值的S21Ultra捆绑价格开始GalaxyWeek优惠

10种调节情绪的方法（调控情绪的方法）

大众途昂7座suv内饰图（大众途昂7座suv怎么样）

桦树茸的水隔夜能喝吗（桦树茸泡水隔夜能喝吗）

火山小视频怎么样才能上热门（火山小视频怎么样）

三星GalaxyS21Ultra拆解显示可修复性低

小米电视3s遥控器是蓝牙还是红外（小米电视3s）

如何安装声卡驱动（如何安装声卡）

t3期间损益结转怎么转（t3期间损益结转设置）

Apple Glass可自行清洗镜片 获得新专利

奕青含（关于奕青含的介绍）

马克思是哪国人呢（马克思是哪个国家的人）

宏基液体Z630和液体Z530提前泄露

减肥皮肤松弛能恢复吗视频（减肥皮肤松弛能恢复吗）

Apple Glass可自行清洗镜片获得新专利