25年春江苏开放大学强化学习060733形考作业2最新答案

试题列表
单选题
题型：单选题客观题分值5分难度：简单得分：5
1
Q 表格的概念中，（）
A
表格中每一个坐标点对应某时刻智能体的状态
B
以每执行若干步，就对Q 表格进行更新
C
与时间差分法毫无关系
D
其表示形式是表格，其中表格的横轴为动作（智能体的动作），纵轴为环境的状态。
学生答案：D
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
2
下列关于策略下状态价值的表达式正确的是（）
注：下列选项中表示策略，表示折扣因⼦， Rt表示t时刻奖励， St表示t时刻状态， At表示t时刻动作。
A

B

C

D

学生答案：A
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
3
动态规划的核心思想是什么？
A
通过分治将问题拆分为更小的子问题
B
通过试探和回溯来探索所有可能的解决方案
C
将问题拆解为子问题并通过存储子问题的解来避免重复计算
D
通过贪心选择每次局部最优解来得到全局最优解
学生答案：C
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
4
蒙特卡洛方法（）
A
蒙特卡洛方法需要马尔可夫决策过程的状态转移函数和奖励函数。
B
蒙特卡洛方法需要更新多条轨迹的状态。
C
适用于环境未知的情况。
D
蒙特卡洛方法与动态规划是一个概念。
学生答案：C
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
5
Q表格中Q 函数的意义是（）
A
在强化学习里面，我们可以每走一步更新一次Q 表格，用下一个状态的Q 值来更新当前状态的Q 值。
B
Q 表格，一般它的行数是所有动作的数量。
C
最开始的时候，Q 表格会全部初始化任意值。
学生答案：A
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
6
最佳价值函数是（）
A
搜索一种策略π ，使每个状态的价值最大，V∗ 就是到达每一个状态的极大值。
B
最佳策略使得最终状态的价值函数取得最大值。
C
每个马尔可夫决策过程的环境都是可解的，我们就可以得到一个最佳价值函数。
题型：单选题客观题分值5分难度：简单得分：5
7
在蒙特卡洛方法中，估计一个问题的期望值通常依赖于：
A
通过穷举所有可能的情况来计算期望
B
随机生成多个样本，并计算它们的平均值
C
通过公式直接计算期望
D
使用动态规划来避免重复计算
题型：单选题客观题分值5分难度：简单得分：5
8
Bellman方程在计算Q(s, a)时，折扣因子γ的作用是什么？
A
它决定了未来奖励的重要性
B
它用来衡量当前奖励的重要性
C
它是奖励的直接来源
D
它只影响状态的转换
题型：单选题客观题分值5分难度：一般得分：5
9
下列关于状态价值V(s)的表达式正确的是（）
注：下列选项中表示策略，表示折扣因⼦，表示t时刻奖励，表示t时刻状态，表示t时刻动作。
A

B

C

D

题型：单选题客观题分值5分难度：简单得分：5
10
概率函数和奖励函数的说法正确的是（）
A
无法表现环境的随机性
B
概率函数定量地表达状态转移的概率
C
一个未知的环境中，即概率函数未知的，但是奖励函数是已知的
题型：单选题客观题分值5分难度：简单得分：5
11
在三连棋游戏中，如果玩家的第⼀步棋选择⾛中间，那么下列分析错误的是（）

A
电脑下⼀步选择⻆或边的概率各为1/2。
B
若电脑选择边，则⼈类玩家有必胜策略。
C
若电脑选择⻆，则⼈类玩家的最佳动作是选择边，有的概率可以获胜。
D
可以获得的期望奖励为1*1/2+1*(1/2)*(2/3)=5/6。
题型：单选题客观题分值5分难度：简单得分：5
12
Q-learning算法中，Q函数是
A
状态-动作值函数
B
状态函数
C
估值函数
D
奖励函数
多选题
题型：多选题客观题分值5分难度：简单得分：5
1
在强化学习中，以下哪些因素会影响状态-动作价值函数Q(s, a)的计算？
A
当前状态s和动作a
B
状态转移概率
C
即时奖励R(s, a)
D
折扣因子γ
E
未来状态s’及其对应的动作a’的价值
题型：多选题客观题分值5分难度：简单得分：5
2
Gym实验环境库中，离散空间用（）表示，连续空间用（）表示。
A
env.observation_space
B
env.action_space
C
env.space.Discrete
D
env.space.Box
题型：多选题客观题分值5分难度：简单得分：5
3
对于Gym实验环境库，使用（）指令可以加载环境，使用（）可以初始化环境，使用（）可以执行一步环境。
A
env.close()
B
env=gym.make(环境名)
C
env.reset()
D
env.step(动作)
E
env.render()
题型：多选题客观题分值5分难度：一般得分：5
4
策略迭代法的核⼼步骤包括哪两个部分（）
A
策略评估
B
状态价值计算
C
策略提升
D
使⽤贪心策略
简答题
题型：简答题主观题分值20分难度：简单得分：15
1
简要解释Sarsa算法的工作原理，并与Q-learning算法进行比较。