Wanjun's blog

念念不忘,必有回响

  • 主页
  • 强化学习
  • 更博计划

更博计划

发表于 2018-09-02

Next:

- CRF

- GBDT

- GBrank

- Word2Vector

强化学习—DDPG算法原理详解

发表于 2017-11-19 | 分类于 DDPG

一、 概述

在DQN中有讲过,DQN是一种 model free(无环境模型), off-policy(产生行为的策略和进行评估的策略不一样)的强化学习算法。DDPG (Deep Deterministic Policy Gradient)算法也是model free, off-policy的,且同样使用了深度神经网络用于函数近似。但与DQN不同的是,DQN只能解决离散且维度不高的action spaces的问题,这一点请回忆DQN的神经网络的输出。而DDPG可以解决连续动作空间问题。另外,DQN是value based方法,即只有一个值函数网络,而DDPG是actor-critic方法,即既有值函数网络(critic),又有策略网络(actor)。

DDPG算法原文链接: DDPG

二、算法原理

阅读全文 »

强化学习—DQN算法原理详解

发表于 2017-11-05 | 分类于 DQN

一、 概述

强化学习算法可以分为三大类:value based, policy based 和 actor critic。常见的是以DQN为代表的value based算法,这种算法中只有一个值函数网络,没有policy网络,以及以DDPG,TRPO为代表的actor-critic算法,这种算法中既有值函数网络,又有policy网络。

说到DQN中有值函数网络,这里简单介绍一下强化学习中的一个概念,叫值函数近似。在基本概念这篇中有讲过,一个state action pair \((s, a)\)对应一个值函数\(Q(s, a)\)。理论上对于任意的\((s, a)\)我们都可以由公式求出它的值函数,即用一个查询表lookup table来表示值函数。但是当state或action的个数过多时,分别去求每一个值函数会很慢。因此我们用函数近似的方式去估计值函数: \[\hat{Q}(s, a, w) \approx Q_\pi(s, a)\]

阅读全文 »

强化学习-基本概念

发表于 2017-11-04 | 分类于 基本概念

一、概述

直观上来说,强化学习是智能体与环境不断交互,从而不断强化自己的决策能力的过程。

阅读全文 »
Wanjun

Wanjun



nlp与搜索、强化学习等算法开发

美国UCR统计学硕士

原创文章,转载请先与我联系!

4 日志
3 分类
2 标签
GitHub E-Mail LinkedIn
0%
© 2017 — 2018 Wanjun