江开江苏开放大学强化学习★★形考作业3最新答案

江苏开放大学强化学习060733BBS：你知道与强化学习相关的人工智能技术有哪些吗？最新答案江苏开放大学强化学习060733BBS：当下强化学习遇到了哪些困境？最新答案 24年春江苏开放大学强化学习060733形考作业2最新答案 24年春江苏开放大学强化学习060733形考作业1最新答案江开江苏开放大学强化学习★★综合大作业最新答案江开江苏开放大学强化学习★★形考作业3最新答案

试题列表
单选题
题型：单选题客观题分值5分难度：简单得分：5
1
蒙特卡罗方法最大的问题是（）
A
偏差大
B
偏差小
C
方差小
D
方差大
学生答案：D
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
2
DDPG算法是（）算法和（）算法的结合。
A
DPG AC
B
DP AC
C
Sarsa Q-learning
D
AC Q-learning
学生答案：A
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
3
以下说法是否正确：确定性策略梯度法（DPG)可以处理连续性动作空间的任务，但是无法直接从高维输入中学习策略。
A
正确
B
错误
学生答案：A
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
4
DQN中用到的技巧有（）。
A
目标网络、利用、经验回放
B
目标网络、探索、经验回放
C
Q网络、利用、经验回放
D
V网络、探索、经验回放
学生答案：B
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
5
DDPG算法一共有（）个神经网络。
A
1
B
2
C
3
D
4
学生答案：D
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
6
以下说法是否正确：强化学习的数据存在马尔可夫性，满足训练神经网络需样本独立同分布的假设前提。
A
正确
B
错误
题型：单选题客观题分值5分难度：简单得分：5
7
以下说法是否正确：为了保证强化学习的训练效果，需要打破训练样本数据之间的相关性。
A
正确
B
错误
多选题
题型：多选题客观题分值5分难度：简单得分：5
1
DQN只能处理（）、（）的动作空间。
A
低维
B
高维
C
离散
D
连续
题型：多选题客观题分值5分难度：简单得分：5
2
DQN算法是基于（）算法，结合了价值函数近似与神经网络技术，并采用目标网络和（）等方法进行网络训练。
A
深度学习的Sarsa
B
当前网络
C
深度学习的Q-learning
D
经验回放
题型：多选题客观题分值5分难度：简单得分：5
3
DQN的经验回放会构建一个回放缓冲区，每个经验的形式包括以下内容：（）。
A
某个状态st
B
在st采取的动作at
C
得到的奖励rt
D
下一步采取的动作at+1
E
进入的下一状态st+1
题型：多选题客观题分值5分难度：简单得分：5
4
DQN中的评论员采用Q函数的话，它的两种写法是（）。
A
输入状态和动作，输出一个标量。
B
输入状态和动作，输出多个值。
C
输入一个状态，输出多个值。
D
输入一个状态，输出一个标量。
题型：多选题客观题分值5分难度：简单得分：5
5
随机策略梯度方法具有以下缺点()。
A
即使学到了随即策略，在每一步动作时，还需要对得到的最优策略概率分布进行采样，才能获得具体的动作值。频繁采样非常耗费计算力。
B
每一步计算策略梯度都需要在整个动作空间进行积分，耗费计算力。
C
最优策略是输出确定性动作。
D
最优策略只有一个。
简答题
题型：简答题主观题分值20分难度：简单得分：20
1
DDPG是on-policy还是off-policy，请给出原因（至少两条，每条10分，两条及以上满分）。
题型：简答题主观题分值20分难度：简单得分：20
2
请简述一下DDPG算法？（应包含内容：DDPG网络的结构，输出，相对于DPG的优化目的，至少3个方面的含义，少于三个方面时，每写出一方面得5分，三个方面及以上得满分）

江开江苏开放大学强化学习★★形考作业3最新答案

评论0

请先登录！

升级VIP

夜间模式

书店

淘宝店铺

返回顶部

站点公告

猜你喜欢

25年春江苏开放大学学前游戏论060525形考作业2最新答案

25年春江苏开放大学楷书060915对《智永千字文》节选内容进行赏析最新答案

25年春江苏开放大学建筑测量050294作业2最新答案

25年春江苏开放大学政治学基础050003第二次平时作业最新答案

25年春江苏开放大学中国文化概论060692过程性考核作业2最新答案

25年春江苏开放大学中国现当代文学060691第二次过程性考核作业最新答案

评论0

请先 登录 ！