2025秋江苏开放大学强化学习★★形考作业3（总成绩占比10％）

江苏开放大学作业答案、历年试题、复习资料一站式学习平台

当前位置

江苏开放大学题库网 > 专业方向课 > 2025秋江苏开放大学强化学习★★形考作业3（总成绩占比10％）

2025秋江苏开放大学强化学习★★形考作业3（总成绩占比10％）

分类：专业方向课时间：2025-09-14 14:16:22 浏览：0次评论：0

摘要：强化学习 - ★★形考作业3（总成绩占比10％）课程名称：强化学习发布教师：卢艳君作业来源：第七单元 Actor-Critic 作业满分：100.0分发布时间：2025-07-06 作业要求：根据第六~七单元学习内容完成本次作业。本次作业包括单选题、多选题以及简答题。通过本次作业的练习，大家应该掌握基于策略方法的思想、策略梯度定理、最基础的REIFORCE算法、Actor-Critic算法原理和流程、确定性策略梯度算法DPG、DDPG流程。本次形考占总成绩比10%。

关键字：厦门开放大学江苏开放大学国家开放大学保险学院长春开放大学国家开放大学现代物业服务与不动产管理学院甘肃开放大学国家开放大学汽车学院新疆开放大学

江苏开放大学作业考试答案

想要快速找到正确答案？

立即关注江开搜题微信公众号，轻松解决学习难题！

江苏开放大学

作业辅导
扫码关注
论文指导
轻松解决学习难题!

强化学习 - ★★形考作业3（总成绩占比10％）

课程名称：强化学习发布教师：卢艳君作业来源：第七单元 Actor-Critic 作业满分：100.0分发布时间：2025-07-06 作业要求：根据第六~七单元学习内容完成本次作业。本次作业包括单选题、多选题以及简答题。通过本次作业的练习，大家应该掌握基于策略方法的思想、策略梯度定理、最基础的REIFO 渝粤教育 RCE算法、Actor-Critic算法原理和流程、确定性策略梯度算法DPG、DDPG流程。本次形考占总成绩比10%。

搜题公众号 >

单选题

1. DDPG算法一共有（）个神经网络。（分值：5.0分）

A. 1

B. 2

C. 3

D. 4

2. 以下说法是否正确：为了保证强化学习的训练效果，需要打破训练样本数据之间的相关性。（分值：5.0分）

A. 正确

B. 错误

3. 以下说法是否正确：强化学习的数据存在马尔可夫性，满足训练神经网络需样本独立同分布的假设前提。（分值：5.0分）

A. 正确

B. 错误

4. DDPG算法是（）算法和（）算法的结合。（分值：5.0分）

A. DPG AC

B. DP AC

C. Sarsa Q-learning

D. AC Q-learning

5. DQN中用到的技巧有（）。（分值：5.0分）

A. 目标网络、利用、经验回放

B. 目渝粤题库标网络、探索、经验回放

C. Q网络、利用、经验回放

广东开放大学 D. V网络、探索、经验回放

6. 确定性策略梯度算法（DPG）的核心思想是成人学历什么？（分值：5.0分）

A. 通过最大化当前状态的Q值来选择最优动作

B. 通过最小化策略的损失函数渝粤文库来更新策略

C. 直接通过策略梯度优化确定性策略的参数

D. 通过生成随机动作来更新策略

7. 在REINFORCE算法中，策略更新是如何进行的？（分值：5.0分）

A. 通过贪心选择来更新策略

B. 通过最大化当前状态的价值函数来更新策略

C. 使用策略的梯度与回报的乘积来更新策略

D. 使用Q值来直接更新策略参数

8. Actor-Critic算法中的"Actor"和"Critic"各自的作用是什么？（分值：5.0分）

A. Actor负责选择动作，Critic负责计算价值函数并评估Actor的策略

B. Actor负责计算奖励，Critic负责选择最佳动作

C. Actor负责计算值函数，Critic负责选择动作

深圳入户

D. Actor和Critic共同负责选择最优奖励

9. 基于策略的方法（Policy-based Methods）与值函数方法（Value-based Methods）最主要的区别是：（分值：5.0分）

A. 基于策略的方法直接优化策略，而值函数方法通过估计状态或状态-动作值来间接优化策略

B. 基于策略的方法依赖于奖励函数，而值函数方法不依赖于奖励函数

C. 基于策略的方法只在离散空间中有效，而值函数方法在连续空间中有效

D. 基于策略的方法只能应用于强化学习中，而值函数方法可以应用于监督学习

10. REINFORCE算法的主要缺点是：（分值：5.0分）

A. 它依赖于即时奖励来更新策略

B. 它是基于值的方法，而不是基于策略的方法

C. 它具有高方差，训练过程中可能不稳定

D. 它不能处理连续的动作空间

多选题

1. 随机策略梯度方法具有以下缺点()。（分值：5.0分）

A. 即使学到了随即策略，在每一步动作时，还需要对得到的最优策略概率分布进行采样，才能获得具体的动作值。频繁采样非常耗费计算力。

B. 每一步计算策略梯度都需要在整个动作空间进行积分，耗费计算力。

C. 最优策略是输出确定性动作。

D. 最优策略只有一个。

2. DQN只能处理（）、（）的动作空间。（分值：5.0分）

A. 低维

B. 高维

C. 离散

D. 连续

3. DQN算法是基于（）算法，结合了价值函数近似与神经网络技术，并采用目标网络和（）等方法进行网络训练。（分值：5.0分）

A. 深度学习的Sarsa

B. 当前网络

C. 深度学习的Q-learning

D. 经验回放

4. DQN的经验回放会构建一个回放缓冲区，每个经验的形式包括以下内容：（）。（分值：5.0分）

A. 某个状态s t

B. 在st采取的动作at

C. 得到的奖励r t

D. 下一步采取的动作a t+1

E. 进入的下一状态st+1

5. DQN中的评论员采用Q函数的话，它的两种写法是（）。（分值：5.0分）

A. 输入状态和动作，国家开放大学输出一个标量。

B. 输入状态和动作，输出多个值。

C. 输入一个状态，输出多个值。

D. 输入一个状态，输出一个标量。

简答题/计算题

1. 简述Actor-Critic算法的原理及其如何平衡策略优化与价值估计。（分值：10.0分）

2. 简述 REINFORCE算法的基本原理，并解释它如何通过蒙特卡洛方法来更新策略。（分值：15.0分）

文章目录

文章作者：江开搜题
文章标题：2025秋江苏开放大学强化学习★★形考作业3（总成绩占比10％）
文章链接：https://www.jktiku.com/zyke/17276.html
本站所有文章除特别声明外，均采用 CC BY-NC-SA 4.0 许可协议，转载请注明来自江开搜题！

📚 推荐阅读

手机扫码阅读

相关文章

评论留言请发表您的神机妙论……

评论列表（共有0条评论）

站点资料

江开搜题

江苏开放大学题库网是一个权威的在线学习平台，致力于整合江苏开放大学全学科的学习资源，涵盖形考作业、期末试题参考答案，部分答案来源毕业学生高分答卷，确保准确性。提供各专业历年考试真题及解析，支持按课程分类检索，帮助学生熟悉题型与考点。

联系站长关注公众号

文章17288
评论0
微语0

搜索

最新文章

热门文章

标签

链接

sitemap

我的足迹清空

江苏开放大学作业考试参考资料

2025秋江苏开放大学强化学习★★形考作业3（总成绩占比10％）

📚 推荐阅读