Category: 强化学习

通过含参数函数实现策略-策略梯度

摘要: 策略梯度:通过含参数函数实现策略 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 在Q学习中应用含参数函数实现价值近似 中,我们学习了如何在 Q 学习中应用含参数函数实现价值近似。具体

将深度学习用于价值近似-DQN

摘要: DQN 初探 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 在Q学习中应用含参数函数实现价值近似 中,我们学习了如何在 Q 学习中应用含参数函数实现价值近似。具体地,我们根据 使用神

在Q学习中应用含参数函数实现价值近似

摘要: 在 Q 学习中应用含参数函数实现价值近似 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 前面我们系统学习了强化学习的各种基础算法,总结可以参考文章 强化学习方法的分类总结。 其中 Q 学习、

极简神经网络-深度强化学习预备知识

摘要: 极简神经网络知识 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 本文我们极简地过一下神经网络的必要知识。虽然是深度学习的内容,但是本文主要是为【使用神经网络实现强化学习的框架】铺垫必要的神经

使用神经网络实现强化学习的框架

摘要: 用神经网络实现强化学习的框架 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 写在前面在文章 强化学习方法的分类总结 中,我们总结了强化学习的各种学习方式,其中我们详细研究了 Q 学习、蒙特

强化学习方法的分类总结

摘要: 无模型方法总结,神经网络的引入 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 各种主流的无模型方法之前我们系统学习了通过自己行动获得经验来指定行动计划的无模型方法。 在利用经验时,需要注意以

组合使用基于价值和基于策略 -- Actor Critic 学习模式

摘要: Actor Critic 学习模式 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 强化学习环境框架-从一个迷宫环境看MDP的要点 中,我们总结了强化学习的基本概念,以及作为强化学习机

经验用于更新价值还是更新策略 -- Q学习与SARSA

摘要: Q 学习与 SARSA 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 强化学习环境框架-从一个迷宫环境看MDP的要点 中,我们总结了强化学习的基本概念,以及作为强化学习机制的 MDP

时序差分与蒙特卡洛方法, Q学习

摘要: 蒙特卡洛方法与时序差分 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 强化学习环境框架-从一个迷宫环境看MDP的要点 中,我们总结了强化学习的基本概念,以及作为强化学习机制的 MDP

经验的积累与利用-Epsilon贪心

摘要: Epsilon贪心 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 强化学习环境框架-从一个迷宫环境看MDP的要点 中,我们总结了强化学习的基本概念,以及作为强化学习机制的 MDP,并

MDP的动态规划解法-策略迭代和价值迭代

摘要: MDP 假设下的动态规划 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 强化学习环境框架-从一个迷宫环境看MDP的要点 中,我们总结了强化学习的基本概念,以及作为强化学习机制的 MD

价值的定义与计算-贝尔曼方程

摘要: 贝尔曼方程初探 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 强化学习环境框架-从一个迷宫环境看MDP的要点 中,我们总结了强化学习的基本概念,以及作为强化学习机制的 MDP,并且以

强化学习环境框架-从一个迷宫环境看MDP的要点

摘要: 强化学习环境的框架,MDP 的要点 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在此前我们已经用 OpenAI Gym 进行过一些强化学习的实践。例如在文章中 OpenAI-Gym入门 中

马尔科夫决策过程

摘要: 马尔科夫决策过程入门 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 OpenAI-Gym入门 中,我们以 CartPole-v1 环境为例学习了 OpenAI Gym 的基本用法。在

OpenAI-Gym-自定义环境的要点

摘要: OpenAI gym 中自定义环境入门 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 OpenAI-Gym入门 中,我们以 CartPole-v1 环境为例学习了 OpenAI Gy

OpenAI-Gym-render画基本形状

摘要: OpenAI gym 中 用 Render 画基本形状 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 OpenAI-Gym入门 中,我们以 CartPole-v1 环境为例学习了 O

OpenAI-Gym神经网络策略及其训练(策略梯度)

摘要: OpenAI gym 策略梯度入门 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 在文章 OpenAI-Gym入门 中,我们用 CartPole-v1 环境学习了 OpenAI Gym 的基

OpenAI-Gym入门

摘要: OpenAI gym 入门 【对算法,数学,计算机感兴趣的同学,欢迎关注我哈,阅读更多原创文章】我的网站:潮汐朝夕的生活实验室我的公众号:算法题刷刷我的知乎:潮汐朝夕我的github:FennelDumplings我的leetcode:FennelDumplings 强化学习的挑战之一是训练智能体,这首先需要一个工作环境。 OpenAI Gym 是一个工具包,提供了广泛的模拟环境。