深度强化学习2.0 (Deep Reinforcement Learning 2.0) from Udemy

欢迎来到深度强化学习2.0！

在这个课程中，我们回学习并且实现一个新的AI模型，较早双延迟DDPG。它是包括了当前最先进的人工智能技术，包括连续性双深度Q-learning，策略梯度，以及演员评论家模型。这个模型非常的强大，利用它，我们可以在课程中第一次解决最具有挑战性的AI问题（训练一个蚂蚁/蜘蛛，以及一个半人形机器人，让它走路或者跑过原野）。

为了构建这个模型，我们分成三步来处理：

第一部分：基础讲解

在这一部分中，我们会学习人工智能的所有必须基础部分。这部分之后，大家可以掌握AI的基础知识，其中包括，Q-Learning,深度Q-learning,策略梯度，演员评论家模型以及更多。

第二部分：双延迟DDPG理论

这一部分中我们会深入学习整个模型背后的理论知识。大家会通过一系列的视觉呈现幻灯片，清楚看到完整的AI构建以及训练的过程。不仅大家可以学到理论知识的细节，同时还可以构建坚实的AI学习以及运作的理论基础。第一部分中的理论基础，结合第二部分的细节解释，会让这些高不可攀的技术，在你面前变得唾手可得。最终大家会成为，少数一批最先掌握这门技术的人。

第三部分：双延迟DDPG的实现

欢迎来到深度强化学习2.0！

为了构建这个模型，我们分成三步来处理：

第一部分：基础讲解

第二部分：双延迟DDPG理论

第三部分：双延迟DDPG的实现

我们会从最基础开始构建这个模型，一步一步，通过互动的部分，这也是这一课程新增加的一个亮点，大家可以自己练习代码的实现部分，跟我们一起进行模型的实现。通过这些练习，大家不再只是被动地跟着课程走，而是主动地、更有效地提高技术。最后还有一点很重要的是，我们所有的实现部分都会放在Colaboratory中来做，也叫做Google Colab，这是一个完全免费的开源的人工智能平台，让大家可以进行编码，训练AI模型，而免去在自己的机器上安装各种资源包的困扰。换句话说，大家在执行代码的时候，可以百分百的确信，可以最后拿到蜘蛛以及半人形机器人的训练视频。

What's inside

Learning objectives

Q-learning
深度q-learning
策略梯度
演员评论家模型

深度确定性策略梯度（ddpg）
双延迟ddpg
深度强化学习的基本技术
如何运用最先进的ai技术训练模型来解决最具有挑战性的问题

Q-learning
深度q-learning
策略梯度
演员评论家模型
深度确定性策略梯度（ddpg）
双延迟ddpg
深度强化学习的基本技术
如何运用最先进的ai技术训练模型来解决最具有挑战性的问题

Syllabus

第一部分 - 基础

欢迎 (Welcome)

在我们开始之前有一些资源分享给大家 (Some resources)

Q-Learning

深度Q-Learning

策略梯度 (Policy Gradient)

演员评论家模型 (Actor-Critic)

AI模型的结构构架 (Taxonomy of AI models)

优势：使用DRL的五大优势 (Bonus: 5 Advantages of DRL)

优势：RL算法图

第二部分- 双延迟DDPG模型的理论

介绍以及模型的初始化 (Introduction and Initialization)

Q-Learning的部分

策略学习的部分 (The Policy Learning part)

整个训练过程 (The whole training process)

第三部分 - 双延迟DDPG模型的实现

完整的模型实现的代码文件夹 (The whole code)

开始 (Beginning)

实现 - 第一步

实现 - 第二步

实现 - 第三步

实现 - 第四步

实现 - 第五步

实现 - 第六步

实现 - 第七步

实现 - 第八步

实现 - 第九步

实现 - 第十步

实现 - 第十一步

实现 - 第十二步

实现 - 第十三步

实现 - 第十四步

实现 - 第十五步

实现 - 第十六步

实现 - 第十七步

实现 - 第十八步

实现 - 第十九步

实现 - 第二十步

The Final Demo!

实例 - 训练

实例 - 推演

附件 1 - 人工神经网络模型 (Artificial Neural Networks)

课程计划 (Plan of Attack)

神经元 (The Neuron)

激活方法 (Activation Function)

神经网络是如何运作的？

神经网络模型是如何学习的？

梯度下降 (Gradient Descent)

随机梯度下降 (Stochastic Gradient Descent)

反向传播 (Back-propagation)

附件 2 - Q-Learning

什么是深度学习? (What is Reinforcement Learning?)

贝尔曼方程 (The Bellman Equation)

计划 (The Plan)

马尔可夫决策过程 (Markov Decision Process)

策略 vs 计划 (Policy vs Plan)

惩罚法则 (Living Penalty)

Q-Learning的教程

临时差异 (Temporal Difference)

Q-Learning的视觉呈现

附件 3 - 深度Q-Learning (Deep Q-Learning)

深度Q-Learning教程 - 第一步

深度Q-Learning教程 - 第二步

经验重演 (Experience Replay)

行动选择策略 (Action Selection Policies)

Good to know

Know what's good

, what to watch for

, and possible dealbreakers

Covers DDPG, which is a core algorithm for tasks that involve continuous action spaces, making it highly relevant for robotics and control systems

Teaches cutting-edge AI techniques, including Twin Delayed DDPG, policy gradients, and actor-critic models, which are essential for staying current in the field

Uses Google Colab, a free and open-source AI platform, which removes barriers to entry and allows learners to focus on coding and training AI models

Includes hands-on implementation of the Twin Delayed DDPG model, allowing learners to actively practice and improve their skills through coding exercises

Requires learners to build the model from scratch, which promotes a deeper understanding of the underlying mechanisms and enhances problem-solving abilities

Focuses on training models to solve challenging AI problems, such as training an ant/spider and a humanoid robot, which demonstrates practical application

Activities

Be better prepared before your course. Deepen your understanding during and after it. Supplement your coursework and achieve mastery of the topics covered in 深度强化学习2.0 (Deep Reinforcement Learning 2.0) with these activities:

阅读《深度学习》

Show steps

通过阅读深度学习经典教材，补充深度学习基础知识，为理解深度强化学习模型打下基础。

View Deep Learning on Amazon

Show steps

选择与课程相关的章节进行阅读。
做笔记并总结关键概念。
尝试理解书中的代码示例。

阅读《强化学习（第二版）》

Show steps

通过阅读经典强化学习教材，加深对课程核心概念的理解，并扩展知识面。

View Reinforcement Learning, second edition: An... on Amazon

Show steps

选择与课程相关的章节进行阅读。
做笔记并总结关键概念。
尝试解决书中的练习题。

实现Q-Learning算法

Show steps

通过编写Q-Learning算法的代码，巩固对Q-Learning原理的理解，并为学习深度Q-Learning做好准备。

Show steps

选择一个简单的强化学习环境（例如OpenAI Gym的FrozenLake）。
编写Q-Learning算法的代码，并在该环境中进行训练。
调整算法的参数，观察训练效果。
分析算法的优缺点。

Three other activities

Expand to see all activities and additional details

Show all six activities

制作双延迟DDPG模型的讲解视频

Show steps

通过制作讲解视频，深入理解双延迟DDPG模型的原理和实现细节，并提高表达能力。

Show steps

深入研究双延迟DDPG模型的理论知识。
编写讲解稿，并制作PPT或动画。
录制讲解视频，并进行剪辑和后期处理。
分享视频，并接受反馈。

参与深度强化学习相关的开源项目

Show steps

通过参与开源项目，学习深度强化学习的实际应用，并与其他开发者交流。

Show steps

寻找感兴趣的深度强化学习开源项目。
阅读项目的文档和代码。
尝试解决项目中的问题或贡献新的功能。
与其他开发者交流，学习经验。

使用双延迟DDPG训练自定义机器人

Show steps

通过训练自定义机器人，将所学知识应用于实际问题，并深入理解双延迟DDPG模型的应用。

Show steps

选择一个机器人模拟环境（例如PyBullet或MuJoCo）。
设计一个自定义机器人模型。
使用双延迟DDPG算法训练机器人完成特定任务。
分析训练结果，并改进模型。

Career center

Learners who complete 深度强化学习2.0 (Deep Reinforcement Learning 2.0) will develop knowledge and skills that may be useful to these careers:

深度强化学习2.0 (Deep Reinforcement Learning 2.0)

What's inside

Learning objectives

Syllabus

Good to know

Save this course

Activities

Career center

Reading list

Share

Similar courses