LOADING

缓存加载中...

Rl

2025/4/21

 

RL快速入门

一般有四个要素:

  1. 策略

学习个体(agent)给定时间内的行为方式。
简单来说,策略是从感知的环境状态在这些状态下要采取的行动的映射。(心理学的刺激-反应规则)
形式:简单的函数?查表?搜索?指定动作的概率?

  1. 奖励信号

学习目标:每个时间步骤,环境向强化学习个体发送的单个数字。 个体的唯一目标是最大化其长期收到的总奖励。
奖励信号是改变策略的主要依据,如果策略选择的动作之后是低奖励,则可以更改策略以在将来选择该情况下的某些其他动作。通常,奖励信号可以是环境状态和所采取的动作的随机函数。

  1. 价值函数

相比奖励信号表明直接意义的好处,价值函数指定长期收益。即一个状态的价值是个体从该状态开始在未来可以预期累积的收益总额。
(贪心和dp?)

  1. (可选的)环境模型。

环境的模拟,或者更一般地说,它对环境的行为做出推断。例如,给定状态和动作,模型可以预测结果的下一状态和下一个奖励。
模型用于规划,我们指的是在行动前对未来进行预判。
使用模型和规划解决强化学习问题的方法被称为基于模型的方法,而不是更简单的不基于模型方法,不基于模型方法几乎被看作是规划的反面,它通过试错进行学习。

马尔科夫决策过程

机器处在一个环境中,每个状态为机器对当前环境的感知;机器只能通过动作来影响环境,当机器执行一个动作后,会使得环境按某种概率转移到另一个状态;同时,环境会根据潜在的奖赏函数反馈给机器一个奖赏。

核心特点无后效性。即系统下一状态仅取决于当前状态和动作,与历史无关。(时序逻辑电路?)


表格解决方法

状态/动作 空间足够小,可以将近似值函数表示为数组或者表格。这样通常可以找到精确的解决方案。