We may earn an affiliate commission when you visit our partners.
Hadelin de Ponteves and SuperDataScience Team

欢迎来到深度强化学习2.0!

在这个课程中,我们回学习并且实现一个新的AI模型,较早双延迟DDPG。它是包括了当前最先进的人工智能技术,包括连续性双深度Q-learning,策略梯度,以及演员评论家模型。这个模型非常的强大,利用它,我们可以在课程中第一次解决最具有挑战性的AI问题(训练一个蚂蚁/蜘蛛,以及一个半人形机器人,让它走路或者跑过原野)。

为了构建这个模型,我们分成三步来处理:

  • 第一部分:基础讲解

在这一部分中,我们会学习人工智能的所有必须基础部分。这部分之后,大家可以掌握AI的基础知识,其中包括,Q-Learning,深度Q-learning,策略梯度,演员评论家模型以及更多。

  • 第二部分:双延迟DDPG理论

这一部分中我们会深入学习整个模型背后的理论知识。大家会通过一系列的视觉呈现幻灯片,清楚看到完整的AI构建以及训练的过程。不仅大家可以学到理论知识的细节,同时还可以构建坚实的AI学习以及运作的理论基础。第一部分中的理论基础,结合第二部分的细节解释,会让这些高不可攀的技术,在你面前变得唾手可得。最终大家会成为,少数一批最先掌握这门技术的人。

  • 第三部分:双延迟DDPG的实现

Read more

欢迎来到深度强化学习2.0!

在这个课程中,我们回学习并且实现一个新的AI模型,较早双延迟DDPG。它是包括了当前最先进的人工智能技术,包括连续性双深度Q-learning,策略梯度,以及演员评论家模型。这个模型非常的强大,利用它,我们可以在课程中第一次解决最具有挑战性的AI问题(训练一个蚂蚁/蜘蛛,以及一个半人形机器人,让它走路或者跑过原野)。

为了构建这个模型,我们分成三步来处理:

  • 第一部分:基础讲解

在这一部分中,我们会学习人工智能的所有必须基础部分。这部分之后,大家可以掌握AI的基础知识,其中包括,Q-Learning,深度Q-learning,策略梯度,演员评论家模型以及更多。

  • 第二部分:双延迟DDPG理论

这一部分中我们会深入学习整个模型背后的理论知识。大家会通过一系列的视觉呈现幻灯片,清楚看到完整的AI构建以及训练的过程。不仅大家可以学到理论知识的细节,同时还可以构建坚实的AI学习以及运作的理论基础。第一部分中的理论基础,结合第二部分的细节解释,会让这些高不可攀的技术,在你面前变得唾手可得。最终大家会成为,少数一批最先掌握这门技术的人。

  • 第三部分:双延迟DDPG的实现

我们会从最基础开始构建这个模型,一步一步,通过互动的部分,这也是这一课程新增加的一个亮点,大家可以自己练习代码的实现部分,跟我们一起进行模型的实现。通过这些练习,大家不再只是被动地跟着课程走,而是主动地、更有效地提高技术。最后还有一点很重要的是,我们所有的实现部分都会放在Colaboratory中来做,也叫做Google Colab,这是一个完全免费的开源的人工智能平台,让大家可以进行编码,训练AI模型,而免去在自己的机器上安装各种资源包的困扰。换句话说,大家在执行代码的时候,可以百分百的确信,可以最后拿到蜘蛛以及半人形机器人的训练视频。

Enroll now

What's inside

Learning objectives

  • Q-learning
  • 深度q-learning
  • 策略梯度
  • 演员评论家模型
  • 深度确定性策略梯度(ddpg)
  • 双延迟ddpg
  • 深度强化学习的基本技术
  • 如何运用最先进的ai技术训练模型来解决最具有挑战性的问题

Syllabus

第一部分 - 基础
欢迎 (Welcome)
在我们开始之前有一些资源分享给大家 (Some resources)
Q-Learning
Read more
深度Q-Learning
策略梯度 (Policy Gradient)
演员评论家模型 (Actor-Critic)
AI模型的结构构架 (Taxonomy of AI models)
优势:使用DRL的五大优势 (Bonus: 5 Advantages of DRL)
优势:RL算法图
第二部分- 双延迟DDPG模型的理论
介绍以及模型的初始化 (Introduction and Initialization)
Q-Learning的部分
策略学习的部分 (The Policy Learning part)
整个训练过程 (The whole training process)
第三部分 - 双延迟DDPG模型的实现
完整的模型实现的代码文件夹 (The whole code)
开始 (Beginning)
实现 - 第一步
实现 - 第二步
实现 - 第三步
实现 - 第四步
实现 - 第五步
实现 - 第六步
实现 - 第七步
实现 - 第八步
实现 - 第九步
实现 - 第十步
实现 - 第十一步
实现 - 第十二步
实现 - 第十三步
实现 - 第十四步
实现 - 第十五步
实现 - 第十六步
实现 - 第十七步
实现 - 第十八步
实现 - 第十九步
实现 - 第二十步
The Final Demo!
实例 - 训练
实例 - 推演
附件 1 - 人工神经网络模型 (Artificial Neural Networks)
课程计划 (Plan of Attack)
神经元 (The Neuron)
激活方法 (Activation Function)
神经网络是如何运作的?
神经网络模型是如何学习的?
梯度下降 (Gradient Descent)
随机梯度下降 (Stochastic Gradient Descent)
反向传播 (Back-propagation)
附件 2 - Q-Learning
什么是深度学习? (What is Reinforcement Learning?)
贝尔曼方程 (The Bellman Equation)
计划 (The Plan)
马尔可夫决策过程 (Markov Decision Process)
策略 vs 计划 (Policy vs Plan)
惩罚法则 (Living Penalty)
Q-Learning的教程
临时差异 (Temporal Difference)
Q-Learning的视觉呈现
附件 3 - 深度Q-Learning (Deep Q-Learning)
深度Q-Learning教程 - 第一步
深度Q-Learning教程 - 第二步
经验重演 (Experience Replay)
行动选择策略 (Action Selection Policies)

Good to know

Know what's good
, what to watch for
, and possible dealbreakers
Covers DDPG, which is a core algorithm for tasks that involve continuous action spaces, making it highly relevant for robotics and control systems
Teaches cutting-edge AI techniques, including Twin Delayed DDPG, policy gradients, and actor-critic models, which are essential for staying current in the field
Uses Google Colab, a free and open-source AI platform, which removes barriers to entry and allows learners to focus on coding and training AI models
Includes hands-on implementation of the Twin Delayed DDPG model, allowing learners to actively practice and improve their skills through coding exercises
Requires learners to build the model from scratch, which promotes a deeper understanding of the underlying mechanisms and enhances problem-solving abilities
Focuses on training models to solve challenging AI problems, such as training an ant/spider and a humanoid robot, which demonstrates practical application

Save this course

Save 深度强化学习2.0 (Deep Reinforcement Learning 2.0) to your list so you can find it easily later:
Save

Activities

Be better prepared before your course. Deepen your understanding during and after it. Supplement your coursework and achieve mastery of the topics covered in 深度强化学习2.0 (Deep Reinforcement Learning 2.0) with these activities:
阅读《深度学习》
通过阅读深度学习经典教材,补充深度学习基础知识,为理解深度强化学习模型打下基础。
View Deep Learning on Amazon
Show steps
  • 选择与课程相关的章节进行阅读。
  • 做笔记并总结关键概念。
  • 尝试理解书中的代码示例。
阅读《强化学习(第二版)》
通过阅读经典强化学习教材,加深对课程核心概念的理解,并扩展知识面。
Show steps
  • 选择与课程相关的章节进行阅读。
  • 做笔记并总结关键概念。
  • 尝试解决书中的练习题。
实现Q-Learning算法
通过编写Q-Learning算法的代码,巩固对Q-Learning原理的理解,并为学习深度Q-Learning做好准备。
Show steps
  • 选择一个简单的强化学习环境(例如OpenAI Gym的FrozenLake)。
  • 编写Q-Learning算法的代码,并在该环境中进行训练。
  • 调整算法的参数,观察训练效果。
  • 分析算法的优缺点。
Three other activities
Expand to see all activities and additional details
Show all six activities
制作双延迟DDPG模型的讲解视频
通过制作讲解视频,深入理解双延迟DDPG模型的原理和实现细节,并提高表达能力。
Show steps
  • 深入研究双延迟DDPG模型的理论知识。
  • 编写讲解稿,并制作PPT或动画。
  • 录制讲解视频,并进行剪辑和后期处理。
  • 分享视频,并接受反馈。
参与深度强化学习相关的开源项目
通过参与开源项目,学习深度强化学习的实际应用,并与其他开发者交流。
Show steps
  • 寻找感兴趣的深度强化学习开源项目。
  • 阅读项目的文档和代码。
  • 尝试解决项目中的问题或贡献新的功能。
  • 与其他开发者交流,学习经验。
使用双延迟DDPG训练自定义机器人
通过训练自定义机器人,将所学知识应用于实际问题,并深入理解双延迟DDPG模型的应用。
Show steps
  • 选择一个机器人模拟环境(例如PyBullet或MuJoCo)。
  • 设计一个自定义机器人模型。
  • 使用双延迟DDPG算法训练机器人完成特定任务。
  • 分析训练结果,并改进模型。

Career center

Learners who complete 深度强化学习2.0 (Deep Reinforcement Learning 2.0) will develop knowledge and skills that may be useful to these careers:

Reading list

We've selected two books that we think will supplement your learning. Use these to develop background knowledge, enrich your coursework, and gain a deeper understanding of the topics covered in 深度强化学习2.0 (Deep Reinforcement Learning 2.0).
这本书是强化学习领域的经典教材,提供了对强化学习理论和算法的全面介绍。它涵盖了Q-Learning、策略梯度和Actor-Critic等核心概念,这些都是本课程的基础。阅读本书可以帮助学生更深入地理解课程内容,并为进一步研究深度强化学习打下坚实的基础。这本书既可以作为参考书,也可以作为深入学习的材料。
这本书是深度学习领域的权威著作,提供了对深度学习理论和实践的全面介绍。虽然本课程侧重于深度强化学习,但对深度学习基础知识的扎实掌握至关重要。本书可以帮助学生理解神经网络、卷积神经网络、循环神经网络等核心概念,这些都是深度强化学习模型的基础。这本书适合作为参考书,帮助学生解决在学习深度强化学习过程中遇到的深度学习相关问题。

Share

Help others find this course page by sharing it with your friends and followers:

Similar courses

Similar courses are unavailable at this time. Please try again later.
Our mission

OpenCourser helps millions of learners each year. People visit us to learn workspace skills, ace their exams, and nurture their curiosity.

Our extensive catalog contains over 50,000 courses and twice as many books. Browse by search, by topic, or even by career interests. We'll match you to the right resources quickly.

Find this site helpful? Tell a friend about us.

Affiliate disclosure

We're supported by our community of learners. When you purchase or subscribe to courses and programs or purchase books, we may earn a commission from our partners.

Your purchases help us maintain our catalog and keep our servers humming without ads.

Thank you for supporting OpenCourser.

© 2016 - 2025 OpenCourser