Published on

Reinforcement_Learning

Shusen Wang

基础

Probalility Density Function-PDF

高斯分布:$p(x)=\frac{1}{\sqrt{2 \pi \sigma^2}} \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)$

离散分布

PDF:$p(1)=0.2, p(3)=0.5, p(7)=0.3$

对于连续分布:

$\int_x p(x) d x=1$

对于离散分布:

$\sum_{x \in x} p(x)=1$

Expectation

对于随机变量X,

连续分布的期望为:$\mathbb{E}[f(X)]=\int_x p(x) \cdot f(x) d x$

离散分布的期望为:$\mathbb{E}[f(X)]=\sum_{x \in X} p(x) \cdot f(x)$

术语

状态: state 行为: action 策略: policy 奖赏: reward

状态转移:state transition

对于马里奥游戏 :

$s$ state: 游戏中的一帧图片。

$a$action: 马里奥可以左,右,跳三个动作。 所以$a \in{$ left, right, up $}$

$\boldsymbol{\pi}$policy function:策略函数,根据当前的state选择最好的action。$\pi(a \mid s)=\mathbb{P}(A=a \mid S=s)$

$R$Reward:吃一个金币,或赢得游戏。赢得游戏的奖赏大于吃一个金币。触碰到Goomba则奖赏为负数,上述所有情况都没发生则奖赏为0.

state transition:

随机性

策略函数是一个概率函数。 所以每次的action都是随机的。

$A \sim \pi(\cdot \mid s)$

old state 根据action转变到new state。$S^{\prime} \sim p(\cdot \mid s, a)$状态也是随机的。

定义

交互行为

根据当前state和policy function选择一个action

action会产生一个新的state和Reward

一个好的policy function可以产生更多的奖励。根据奖励可以指导policy function。

Definition : Return 累计未来奖励(cumulative future reward)。

$U_t=R_t+R_{t+1}+R_{t+2}+R_{t+3}+\cdots$

未来奖励权重要低于当下奖励的权重

Definition:Discounted return

$\gamma$:discount factor(超参数)

$U_t=R_t+\gamma R_{t+1}+\gamma^2 R_{t+2}+\gamma^3 R_{t+3}+\cdots$随机的,R依赖于s,a。 s,a是随机的。

Definition: Action-Value Function 为动作A打分。当前动作好不好

$Q_\pi\left(s_t, a_t\right)=\mathbb{E}\left[U_t \mid S_t=s_t, A_t=a_t\right]$条件期望

$U_t$依赖于$S_t,S_{t+1},...,S_n$和$A_t,A_{t+1},...,A_n$

$s_t,a_t$是观测变量,$s_{t+1},...,S_n$和$A_{t+1},...,A_n$是随机变量

Actions are random:$\mathbb{P}[A=a \mid S=s]=\pi(a \mid s)$ policy function

State are random:$\mathbb{P}\left[S^{\prime}=s^{\prime} \mid S=s, A=a\right]=p\left(s^{\prime} \mid s, a\right)$ state function

Ut也是随机变量。

可以对$U_t$这个随机变量求期望。将里面的随机性积掉,可以得到一个实数。比如我们知道抛硬币的正面朝上的概率是0.5, 正面朝上记为1,反面为0,则期望为0.5。

除了$s_t,a_t$未来的动作状态都被积掉了,$s_t,a_t$被作为观测到的数值替代而不是随机变量。Q还与policy function有关,如果policy函数不一样则$Q_\pi$也不一样,已知policy函数,$Q_\pi$就会为当前状态下所有的a打分。

Definition: Optimal action-value function

$Q^{\star}\left(s_t, a_t\right)=\max \pi Q\pi\left(s_t, a_t\right)$去掉policy function。最优动作价值函数

Definition:State-value function

$V_\pi\left(s_t\right)=\mathbb{E}A\left[Q\pi\left(s_t, A\right)\right]=\sum_a \pi\left(a \mid s_t\right) \cdot Q_\pi\left(s_t, a\right)$当Aciton是离散的时候。

描述当前状态S好不好。

可以把动作A作为随机变量,对A求期望 A的概率密度函数是$\underline{A} \sim \pi\left(\cdot \mid s_t\right)$.,把A消掉。求期望得到的$V_\pi$只和$\pi$和s有关。如果$\pi$是固定的,那么状态越好,$V_\pi$的值越大。

如果$\pi$越好,则$\mathbb{E}S\left[V\pi(S)\right]$ $V_\pi(S)$的期望就越大。