强化学习的数学原理-01基本概念

news/2024/10/19 11:25:04

state:\(The \quad status \quad of \quad agent \quad with \quad respect \quad to \quad the \quad environment\) (agent 相对于环境的状态)

对于下面的网格地图来说:\(state\)就相当于$ location $,用 \(s_1、s_2、...、s_9\)来表示

1729303073134.png


state space\(The \quad set \quad of \quad all \quad state \quad S = \{s_i\}_{i=1}^{9}\) 状态空间,把所有\(state\)放在一起得到的集合就是\(state \quad space\)


Action: \(For \quad each \quad state, \quad there \quad are \quad five \quad possible \quad actoin: a_1、a_2、a_3、a_4、a_5\)

1729303532260.png


Action space of a state:\(the \quad set \quad of \quad all possible actions \quad of \quad a \ quad state\)

\(A(s_i) = \{a_i\}_{i=1}^{5}\)


state transition: 当采取了一个\(action\)后,\(agent\)从一个\(state\)转移到另一个\(state\),这样一个过程佳作\(state \quad transition\)

1729304537661.png

\(state \quad transition\)定义一种\(agent\)\(environment\)交互的行为


Forbidden area:有两种情况,一种是forbidden are可以到达,但是会得到相应的惩罚,另一种是forbidden area不可到达,相当于有一堵墙。


Tabular representation:可以用表格来描述state transition
1729304959518.png
只能能表示确定的情况


相比于上面的表格,更一般的做法是使用下面这种方法

state transition probability:使用概率来描述state transition

image


Policy:告诉agent在一个状态应该采取什么动作
1729305366018.png
1729305463666.png
\(\pi\)在强化学习中用来表示条件概率,而不是圆周率
上面图片中的情况是确定性的策略,同时也有不确定的策略
1729305663829.png


Reward:reward是action采取一个action后得到的实数,一个正的reward代表鼓励采取这样的action,一个负的reward代表惩罚这样的action。

reward可以理解成一个\(human-machine \quad interface\),我们人类和机器交互的一个接口

reward依赖于当前的\(state和采取的action\)而不是依赖于接下来的\(state\)


trajectory:是一个\(state-action-reward\) chain

1729306345177.png

1729306323925.png


Return:沿着trajectory,所有的reward相加得到得就是return

return的作用可以用来评估一个策略的好坏


discount return:
1729306642425.png

从上图可以看到上面的trajectory是无限长的,对应的return是发散的。

为了解决这个问题引入一个\(discount \quad rate \quad \gamma \in [0, 1)\)

上面的return就可以用discount return来表示

$discount return = 0 + \gamma * 0 + {\gamma^2} * 0 + {\gamma^3} * 1 + {\gamma^4} * 1 + ... $

\(discount return = \gamma^3(1 + \gamma + \gamma^2 + \gamma^3 + ...)\)

\(discount return = \gamma^3(\frac{1}{1 - \gamma})\)


episode\trial:一个有限步的trajectory被称为episode,也就是有terminal states的trajectory。

可以采用方法将episodic转化为continue的,在terminal state时无论采取什么action都会回到terminal state。


MDP:Markov decision process,马尔可夫决策过程是一个框架framework

一个马尔可夫决策过程中有很多关键的元素:

set:

  1. State:
  2. Action
  3. Reward

Probability distribution:

  • State transition probability:在一个状态s,采取action a,转移到状态\(s^{'}\)的概率\(p(s^{'}|s,a)\)
  • Reward probability:在状态s,采取action a,得到reward r的概率\(p(r|s, a)\)

Policy:
在状态s,采取action a的概率\(\pi(a|s)\)

Markov property:memoryless property

1729307848322.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/73381.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

煤矿监管电子封条

煤矿监管电子封条系统通过视频监控和图像分析技术,煤矿监管电子封条能够实时监测矿井各个关键位置的情况。当有人员进出或人数发生变化时,煤矿监管电子封条能够自动识别,并记录下相关信息。同时,煤矿监管电子封条还能够监测设备的开停情况,及时发现异常和故障,以便及时处…

keil 快捷键设置,开发加速的小技巧(个人设置)

点击扳手,选择shortcut key进入快捷键设置页面跳到上一个光标的位置跳到下一个光标的位置跳转到定义(没办法实现组合鼠标按键,F12又太远,不过和QQ的截图热键冲突,需要修改QQ的快捷键,各有取舍吧)跳转到声明

每隔一段时间后第一次请求耗时特别长

同一个接口连续请求耗时都是毫秒级别的,当一段时间不请求后会变成秒级别,通过日志跟踪发现业务出处理的时间是毫秒级别的,怀疑是过滤器或者是容器的问题,通过IDEA 远程debug 发现经过一段时间不使用再次请求接口,会寻找 com.mysql.jdbc.MySQLConnection类,猜测是tomcat 丢…

linux上编译运行c程序

创建test文件,进入该目录后创建hello.c文件使用vim hello.c命令编辑hello.c文件编写完成后保存该文件,使用gcc进行编译并生成可执行程序在终端中执行输入./hello执行相关代码

效率工具类软件分类解析 | To teacher

写给我的同仁的推荐信,万一你需要连你自己也说不清楚的功能软件,你不妨看看这个软件导图,说不定能节省你好多的时间 .前情概要 在编制博客过程中,自己也积累了一些常用的软件,由于主要工作内容集中在前端,所以办公软件使用的不是很多,零零散散,直到看到一位大牛分享在 …

RabbitMQ 发布订阅(Publish Subscribe)模式示例

总结自:BV15k4y1k7Ep交换机 订阅模式示例图:在简单模式和工作队列模式中,只有 3 个角色:P:生产者,也就是要发送消息的程序。C:消费者,消息的接受者,会一直等待消息到来。Queue:消息队列,图中红色部分。而在订阅模型中,多了一个 Exchange 角色,而且工作过程略有变化…

Leetcode 1135. 最低成本连通所有城市

1.题目基本信息 1.1.题目描述 想象一下你是个城市基建规划者,地图上有 n 座城市,它们按以 1 到 n 的次序编号。 给你整数 n 和一个数组 conections,其中 connections[i] = [x_i, y_i, cost_i] 表示将城市 x_i 和城市 y_i 连接所要的cost_i(连接是双向的)。 返回连接所有城…

Leetcode 1129. 颜色交替的最短路径

1.题目基本信息 1.1.题目描述 给定一个整数 n,即有向图中的节点数,其中节点标记为 0 到 n – 1。图中的每条边为红色或者蓝色,并且可能存在自环或平行边。 给定两个数组 redEdges 和 blueEdges,其中:redEdges[i] = [a_i, b_i] 表示图中存在一条从节点 a_i 到节点 b_i 的红…