试题列表
单选题
题型:单选题客观题分值5分难度:简单得分:5
1
确定性策略梯度算法(DPG)的核心思想是什么?
A
通过最大化当前状态的Q值来选择最优动作
B
通过最小化策略的损失函数来更新策略
C
直接通过策略梯度优化确定性策略的参数
D
通过生成随机动作来更新策略
学生答案:C
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
2
DQN中用到的技巧有()。
A
目标网络、利用 、经验回放
B
目标网络、探索、经验回放
C
Q网络、利用 、经验回放
D
V网络、探索 、经验回放
学生答案:B
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
3
Actor-Critic算法中的”Actor”和”Critic”各自的作用是什么?
A
Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略
B
Actor负责计算奖励,Critic负责选择最佳动作
C
Actor负责计算值函数,Critic负责选择动作
D
Actor和Critic共同负责选择最优奖励
学生答案:A
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
4
以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。
A
正确
B
错误
学生答案:A
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
5
在REINFORCE算法中,策略更新是如何进行的?
A
通过贪心选择来更新策略
B
通过最大化当前状态的价值函数来更新策略
C
使用策略的梯度与回报的乘积来更新策略
D
使用Q值来直接更新策略参数
学生答案:C
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
6
以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。
A
正确
B
错误
题型:单选题客观题分值5分难度:简单得分:5
7
DDPG算法一共有()个神经网络。
A
1
B
2
C
3
D
4
题型:单选题客观题分值5分难度:简单得分:5
8
DDPG算法是()算法和()算法的结合。
A
DPG AC
B
DP AC
C
Sarsa Q-learning
D
AC Q-learning
题型:单选题客观题分值5分难度:简单得分:5
9
基于策略的方法(Policy-based Methods)与值函数方法(Value-based Methods)最主要的区别是:
A
基于策略的方法直接优化策略,而值函数方法通过估计状态或状态-动作值来间接优化策略
B
基于策略的方法依赖于奖励函数,而值函数方法不依赖于奖励函数
C
基于策略的方法只在离散空间中有效,而值函数方法在连续空间中有效
D
基于策略的方法只能应用于强化学习中,而值函数方法可以应用于监督学习
多选题
题型:多选题客观题分值5分难度:简单得分:5
1
DQN只能处理()、()的动作空间。
A
低维
B
高维
C
离散
D
连续
题型:多选题客观题分值5分难度:简单得分:5
2
随机策略梯度方法具有以下缺点()。
A
即使学到了随即策略,在每一步动作时,还需要对得到的最优策略概率分布进行采样,才能获得具体的动作值。频繁采样非常耗费计算力。
B
每一步计算策略梯度都需要在整个动作空间进行积分,耗费计算力。
C
最优策略是输出确定性动作。
D
最优策略只有一个。
题型:多选题客观题分值5分难度:简单得分:5
3
DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。
A
某个状态st
B
在st采取的动作at
C
得到的奖励rt
D
下一步采取的动作at+1
E
进入的下一状态st+1
题型:多选题客观题分值5分难度:简单得分:5
4
DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。
A
深度学习的Sarsa
B
当前网络
C
深度学习的Q-learning
D
经验回放
题型:多选题客观题分值5分难度:简单得分:5
5
DQN中的评论员采用Q函数的话, 它的两种写法是()。
A
输入状态和动作,输出一个标量。
B
输入状态和动作,输出多个值。
C
输入一个状态,输出多个值。
D
输入一个状态,输出一个标量。
简答题
题型:简答题主观题分值15分难度:简单得分:15
1
请简述一下DDPG算法?(应包含内容:DDPG网络的结构,输出,相对于DPG的优化目的,至少3个方面的含义,少于三个方面时,每写出一方面得5分,三个方面及以上得满分)
题型:简答题主观题分值15分难度:简单得分:10
2
简述REINFORCE算法的基本原理,并解释它如何通过蒙特卡洛方法来更新策略。
请先
!