江苏开放大学作业考试参考资料
想要快速找到正确答案?
立即关注 江开搜题微信公众号,轻松解决学习难题!
作业辅导
扫码关注
论文指导
轻松解决学习难题!
强化学习 - ★★形考作业3(总成绩占比10%)
课程名称:强化学习 发布教师:卢艳君 作业来源:第七单元 Actor-Critic 作业满分:100.0分 发布时间:2025-07-06 作业要求:根据第六~七单元学习内容完成本次作业。本次作业包括单选题、多选题以及简答题。通过本次作业的练习,大家应该掌握基于策略方法的思想、策略梯度定理、最基础的REIFO 渝粤教育 RCE算法、Actor-Critic算法原理和流程、确定性策略梯度算法DPG、DDPG流程。本次形考占总成绩比10%。
搜题公众号 >
单选题
1. DDPG算法一共有()个神经网络。 (分值:5.0分)
A. 1
B. 2
C. 3
D. 4
2. 以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。 (分值:5.0分)
A. 正确
B. 错误
3. 以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。 (分值:5.0分)
A. 正确
B. 错误
4. DDPG算法是()算法和()算法的结合。 (分值:5.0分)
A. DPG AC
B. DP AC
C. Sarsa Q-learning
D. AC Q-learning
5. DQN中用到的技巧有()。 (分值:5.0分)
A. 目标网络、利用 、经验回放
B. 目 渝粤题库 标网络、探索、经验回放
C. Q网络、利用 、经验回放
广东开放大学 D. V网络、探索 、经验回放
6. 确定性策略梯度算法(DPG)的核心思想是 成人学历 什么? (分值:5.0分)
A. 通过最大化当前状态的Q值来选择最优动作
B. 通过最小化策略的损失函数 渝粤文库 来更新策略
C. 直接通过策略梯度优化确定性策略的参数
D. 通过生成随机动作来更新策略
7. 在REINFORCE算法中,策略更新是如何进行的? (分值:5.0分)
A. 通过贪心选择来更新策略
B. 通过最大化当前状态的价值函数来更新策略
C. 使用策略的梯度与回报的乘积来更新策略
D. 使用Q值来直接更新策略参数
8. Actor-Critic算法中的"Actor"和"Critic"各自的作用是什么? (分值:5.0分)
A. Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略
B. Actor负责计算奖励,Critic负责选择最佳动作
C. Actor负责计算值函数,Critic负责选择动作
深圳入户D. Actor和Critic共同负责选择最优奖励
9. 基于策略的方法(Policy-based Methods)与值函数方法(Value-based Methods)最主要的区别是: (分值:5.0分)
A. 基于策略的方法直接优化策略,而值函数方法通过估计状态或状态-动作值来间接优化策略
B. 基于策略的方法依赖于奖励函数,而值函数方法不依赖于奖励函数
C. 基于策略的方法只在离散空间中有效,而值函数方法在连续空间中有效
D. 基于策略的方法只能应用于强化学习中,而值函数方法可以应用于监督学习
10. REINFORCE算法的主要缺点是: (分值:5.0分)
A. 它依赖于即时奖励来更新策略
B. 它是基于值的方法,而不是基于策略的方法
C. 它具有高方差,训练过程中可能不稳定
D. 它不能处理连续的动作空间
多选题
1. 随机策略梯度方法具有以下缺点()。 (分值:5.0分)
A. 即使学到了随即策略,在每一步动作时,还需要对得到的最优策略概率分布进行采样,才能获得具体的动作值。频繁采样非常耗费计算力。
B. 每一步计算策略梯度都需要在整个动作空间进行积分,耗费计算力。
C. 最优策略是输出确定性动作。
D. 最优策略只有一个。
2. DQN只能处理()、()的动作空间。 (分值:5.0分)
A. 低维
B. 高维
C. 离散
D. 连续
3. DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。 (分值:5.0分)
A. 深度学习的Sarsa
B. 当前网络
C. 深度学习的Q-learning
D. 经验回放
4. DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。 (分值:5.0分)
A. 某个状态s t
B. 在st采取的动作at
C. 得到的奖励r t
D. 下一步采取的动作a t+1
E. 进入的下一状态st+1
5. DQN中的评论员采用Q函数的话, 它的两种写法是()。 (分值:5.0分)
A. 输入状态和动作, 国家开放大学 输出一个标量。
B. 输入状态和动作,输出多个值。
C. 输入一个状态,输出多个值。
D. 输入一个状态,输出一个标量。
简答题/计算题
1. 简述Actor-Critic算法的原理及其如何平衡策略优化与价值估计。 (分值:10.0分)
2. 简述 REINFORCE算法 的基本原理,并解释它如何通过蒙特卡洛方法来更新策略。 (分值:15.0分)