江苏开放大学题库网

江苏开放大学作业答案、历年试题、复习资料一站式学习平台

2025秋江苏开放大学强化学习★★形考作业3(总成绩占比10%)

分类: 专业方向课 时间:2025-09-14 14:16:22 浏览:0次 评论:0
摘要:强化学习 - ★★形考作业3(总成绩占比10%) 课程名称:强化学习 发布教师:卢艳君 作业来源:第七单元 Actor-Critic 作业满分:100.0分 发布时间:2025-07-06 作业要求:根据第六~七单元学习内容完成本次作业。本次作业包括单选题、多选题以及简答题。通过本次作业的练习,大家应该掌握基于策略方法的思想、策略梯度定理、最基础的REIFORCE算法、Actor-Critic算法原理和流程、确定性策略梯度算法DPG、DDPG流程。本次形考占总成绩比10%。
江苏开放大学作业考试答案

想要快速找到正确答案?

立即关注 江开搜题微信公众号,轻松解决学习难题!

江苏开放大学
扫码关注

作业辅导
扫码关注
论文指导
轻松解决学习难题!

强化学习 - ★★形考作业3(总成绩占比10%)

课程名称:强化学习 发布教师:卢艳君 作业来源:第七单元 Actor-Critic 作业满分:100.0分 发布时间:2025-07-06 作业要求:根据第六~七单元学习内容完成本次作业。本次作业包括单选题、多选题以及简答题。通过本次作业的练习,大家应该掌握基于策略方法的思想、策略梯度定理、最基础的REIFO 渝粤教育 RCE算法、Actor-Critic算法原理和流程、确定性策略梯度算法DPG、DDPG流程。本次形考占总成绩比10%。

搜题公众号 >

单选题

1. DDPG算法一共有()个神经网络。 (分值:5.0分)

A. 1

B. 2

C. 3

D. 4

2. 以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。 (分值:5.0分)

A. 正确

B. 错误

3. 以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。 (分值:5.0分)

A. 正确

B. 错误

4. DDPG算法是()算法和()算法的结合。 (分值:5.0分)

A. DPG AC

B. DP AC

C. Sarsa Q-learning

D. AC Q-learning

5. DQN中用到的技巧有()。 (分值:5.0分)

A. 目标网络、利用 、经验回放

B. 目 渝粤题库 标网络、探索、经验回放

C. Q网络、利用 、经验回放

广东开放大学 D. V网络、探索 、经验回放

6. 确定性策略梯度算法(DPG)的核心思想是 成人学历 什么? (分值:5.0分)

A. 通过最大化当前状态的Q值来选择最优动作

B. 通过最小化策略的损失函数 渝粤文库 来更新策略

C. 直接通过策略梯度优化确定性策略的参数

D. 通过生成随机动作来更新策略

7. 在REINFORCE算法中,策略更新是如何进行的? (分值:5.0分)

A. 通过贪心选择来更新策略

B. 通过最大化当前状态的价值函数来更新策略

C. 使用策略的梯度与回报的乘积来更新策略

D. 使用Q值来直接更新策略参数

8. Actor-Critic算法中的"Actor"和"Critic"各自的作用是什么? (分值:5.0分)

A. Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略

B. Actor负责计算奖励,Critic负责选择最佳动作

C. Actor负责计算值函数,Critic负责选择动作

深圳入户

D. Actor和Critic共同负责选择最优奖励

9. 基于策略的方法(Policy-based Methods)与值函数方法(Value-based Methods)最主要的区别是: (分值:5.0分)

A. 基于策略的方法直接优化策略,而值函数方法通过估计状态或状态-动作值来间接优化策略

B. 基于策略的方法依赖于奖励函数,而值函数方法不依赖于奖励函数

C. 基于策略的方法只在离散空间中有效,而值函数方法在连续空间中有效

D. 基于策略的方法只能应用于强化学习中,而值函数方法可以应用于监督学习

10. REINFORCE算法的主要缺点是: (分值:5.0分)

A. 它依赖于即时奖励来更新策略

B. 它是基于值的方法,而不是基于策略的方法

C. 它具有高方差,训练过程中可能不稳定

D. 它不能处理连续的动作空间

多选题

1. 随机策略梯度方法具有以下缺点()。 (分值:5.0分)

A. 即使学到了随即策略,在每一步动作时,还需要对得到的最优策略概率分布进行采样,才能获得具体的动作值。频繁采样非常耗费计算力。

B. 每一步计算策略梯度都需要在整个动作空间进行积分,耗费计算力。

C. 最优策略是输出确定性动作。

D. 最优策略只有一个。

2. DQN只能处理()、()的动作空间。 (分值:5.0分)

A. 低维

B. 高维

C. 离散

D. 连续

3. DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。 (分值:5.0分)

A. 深度学习的Sarsa

B. 当前网络

C. 深度学习的Q-learning

D. 经验回放

4. DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。 (分值:5.0分)

A. 某个状态s t

B. 在st采取的动作at

C. 得到的奖励r t

D. 下一步采取的动作a t+1

E. 进入的下一状态st+1

5. DQN中的评论员采用Q函数的话, 它的两种写法是()。 (分值:5.0分)

A. 输入状态和动作, 国家开放大学 输出一个标量。

B. 输入状态和动作,输出多个值。

C. 输入一个状态,输出多个值。

D. 输入一个状态,输出一个标量。

简答题/计算题

1. 简述Actor-Critic算法的原理及其如何平衡策略优化与价值估计。 (分值:10.0分)

2. 简述 REINFORCE算法 的基本原理,并解释它如何通过蒙特卡洛方法来更新策略。 (分值:15.0分)

文章目录


    手机扫码阅读
    相关文章
    评论留言请发表您的神机妙论……

    昵称

    邮箱

    地址

    私密评论
    评论列表(共有0条评论)