江开江苏开放大学强化学习★★综合大作业最新答案

江苏开放大学强化学习060733BBS：你知道与强化学习相关的人工智能技术有哪些吗？最新答案江苏开放大学强化学习060733BBS：当下强化学习遇到了哪些困境？最新答案 24年春江苏开放大学强化学习060733形考作业2最新答案 24年春江苏开放大学强化学习060733形考作业1最新答案江开江苏开放大学强化学习★★综合大作业最新答案江开江苏开放大学强化学习★★形考作业3最新答案

试题列表
单选题
题型：单选题客观题分值5分难度：简单得分：5
1
在epsilon-greedy算法中，epsilon的值越大，采取随机动作的概率越()，采用当前Q函数最大动作的概率越(）。
A
小，小
B
大，小
C
大，大
D
小，大
学生答案：B
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
2
在强化学习的过程中，(）能够在稍微偏离目前最好策略的基础上，尝试更多策略，(）能够运用目前最好的策略，获取更高的奖励。
A
利用，探索
B
探索，利用
C
利用，输出
D
探索，输出
学生答案：B
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
3
Q(s,a)是指在给定状态s的情况下，采取行动a之后，后续的各个状态所能得到的回报(）
A
总和
B
最大值
C
最小值
D
期望值
学生答案：D
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
4
Q-learning算法中，Q函数是（）。
A
状态-动作值函数
B
状态函数
C
估值函数
D
奖励函数
学生答案：A
老师点评：
题型：单选题客观题分值5分难度：简单得分：5
5
在强化学习过程中，学习率越大，表示采用新的尝试得到的结果比例越()，保持旧的结果的比例越()
A
大，小
B
大，大
C
小，大
D
小，小
学生答案：A
老师点评：
多选题
题型：多选题客观题分值5分难度：简单得分：5
1
强化学习包含的元素有（）。
A
Reward
B
Agent
C
State
D
Action
简答题
题型：简答题主观题分值50分难度：简单得分：50
1
请利用DDPG算法实现钟摆游戏Pendulum-v1，需要在答案区附上训练和测试曲线，包括训练时的奖励曲线图（20分）和测试时的奖励曲线区图（20分），并进行结果分析（10分）。

题型：简答题主观题分值10分难度：简单得分：10
2
请问DQN（Deep Q-Network）是什么？其两个关键性的技巧分别是什么？（每个问题5分）
题型：简答题主观题分值10分难度：简单得分：10
3
Actor-Critic框架中的Critic起了什么作用？

江开江苏开放大学强化学习★★综合大作业最新答案

评论0

请先登录！

升级VIP

夜间模式

书店

淘宝店铺

返回顶部

站点公告

猜你喜欢

25年春江苏开放大学农产品质量检测分析060168作业二最新答案

25年春江苏开放大学采购管理060179形考任务2:7-10单元通关测试最新答案

25年春江苏开放大学电路基础050552形成性考核作业2最新答案

25年春江苏开放大学大气污染控制工程060121第一次作业最新答案

25年春江苏开放大学数据结构与算法060220形考作业四最新答案

25年春江苏开放大学经济学基础050264第三次平时作业最新答案

评论0

请先 登录 ！