马尔可夫决策过程的求和问题

news/2024/9/25 11:19:55

\[\sum_{a\in A}\pi(a|s)\sum_{s^{\prime}\in S}P(s^{\prime}|s,a) \]

\[\sum_{s^{\prime}\in S}\sum_{a\in A}\pi(a|s)P(s^{\prime}|s,a) \]

1、为什么两个求和符号后的表达式被允许先放在一起相乘:
独立求和的重要性
对于每个动作a,我们可以进行独立的计算(可以看作是对动作a 按顺序考虑所有的可能性集合,这也是求和的意义),即:

  • 先固定a,计算\(\sum_{s^{\prime}\in S}P(s^{\prime}|s,a)\) ,即在固定动作下考虑所有的状态转移
  • 然后用\(\pi(a|s)\) 进行加权,因为\(\pi(a|s)\)是选择这个动作的概论
    这里样的话,就可以理解为什么可以进行变换了

2、什么情况下这两个求和符号后面的表达式不能放在一起相乘

  • 相互依赖(依赖复杂性):当内外层的求和表达式不是独立的,导致不能直接将乘积的各部分分离出来单独求和。即两个求和符号后面的部分并不是可以独立处理的,求和出的项相互依赖。
    假设π(a∣s,s′)和P(s′∣s,a).
    不能简单地将这两个部分分离出来独立相乘。这是因为其中一部分的值取决于另一部分

  • 涉及条件相关性:这种情况下,多个项之间存在复杂的条件关系,导致直接相乘没有意义。简单的独立相加相乘法则不再适用。
    例如:π(a∣s)=f(a,s′)⋅P(s′∣s,a)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/64524.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

Linux 中awk命令同时指定多个分割符

001、[root@localhost test]# ls a.txt [root@localhost test]# cat a.txt ## 测试数据 aadd kk;gene=ABEK:ett 8735 fdfk jj;gene=IYNF:34DF UYG [root@localhost test]# awk -F "[gene=|:]" {print $2} a.txt ## 使用-F 参数无…

【随手记录】docker部署jenkins,集成maven、spring项目

1、下载镜像文件到服务器docker pull jenkins/jenkins:lts-jdk17或离线导入镜像:docker load -i jenkins-lts-jdk17检查镜像是否导入:docker images|grep jenkinsjenkins/jenkins lts-jdk17 7a7add0bf3da 2 weeks ago 470MB2024年6月以后国内很多大型的Docker镜像站…

CH585烧录

目前最新版本ISP工具还未更新至官网,旧版ISP工具还不包含CH585烧录选项。 可通过最新版本Mounriver Studio导出ISP工具, 除此之外,还需要更换下配置文件,右键Mounriver Studio打开文件所在位置,将名称为WCH55xISPDLL.dll的配置文件替换到该路径下:D:\MounRiver\MounRiver…

寄存器传值——函数剖析

寄存器传值导致的未定义行为寄存器传值——函数剖析 现象 实验环境:Ubuntu20,x86-64指令集 #include <stdio.h>int sum(int a, int b){return a+b; }int main() {int aa = sum(5,3);printf("%d, %d\n", 9);return 0; }编译器提示我们 printf()函数少一个参数…

查看exe启动命令和参数

wmic process where caption="qq.exe" get caption,commandline /value #qq.exe可以更换为任何正在运行的进程

Windows 11 version 23H2 中文版、英文版 (x64、ARM64) 下载 (updated Sep 2024)

Windows 11 version 23H2 中文版、英文版 (x64、ARM64) 下载 (updated Sep 2024)Windows 11 version 23H2 中文版、英文版 (x64、ARM64) 下载 (updated Sep 2024) Windows 11, version 23H2,企业版 arm64 x64 请访问原文链接:https://sysin.org/blog/windows-11/,查看最新版…

【YashanDB知识库】YAS-04110 invalid variant name

本文转自YashanDB官网,具体内容请见https://www.yashandb.com/newsinfo/7369202.html?templateId=1718516 【标题】错误码处理 【问题分类】查询语句报错 【关键字】YAS-04110 【问题描述】执行特定sql时,遇到相应报错 【问题原因分析】字段中含有保留字,应使用双引号包裹字…

章14——Hashtable

键和值为NULL时会抛出空指针异常。KEY重复且无NULL时同样会替换,和HashMap是一样的。按照2倍+1的规律去扩容与HASHMAP对比PROPERTIES,也是MAP接口的实现类,是Hashtable的子类 .properties 文件通常是用于数据库的配置文件,储存数据库的用户名密码等东西 详细可见博客园博客…