什么是强化学习(新手必看)
强化学习(Reinforcement Learning,RL)又称再励学习、评价学习或增强学习,是机器学习的范式和方法论之一,用于描述和解决智能体(agent)在与环境的交互过程中通过学习策略以达成回报最大化或实现特定目标的问题。
反复实验(trial and error)和延迟奖励(delayed reward)是强化学习最重要的两个特征。
强化学习与监督学习、非监督学习和半监督学习这 3 种学习方式的不同点在于,强化学习训练时,需要环境给予反馈,以及对应具体的反馈值。强化学习主要是指导训练对象每一步如何决策、采用什么样的行动可以完成特定的目的或使收益最大化。

图 1 强化学习系统架构
它主要包含 6 个要素:智能体(agent)、状态(state)、动作(action)、奖励(reward)、策略(policy)以及环境或者说是模型(model):
1) 智能体(机器人、代理):强化学习的本体,作为学习者或者决策者。
2) 环境:对环境的模拟,例如,当给出了状态与动作后,有了模型就可以预测接下来的状态和对应的奖励。需注意的一点是,并非所有的强化学习系统都需要有一个模型,因此有基于模型(model-based)、不基于模型(model-free)两种不同的方法,不基于模型的方法主要通过对策略和价值函数分析进行学习。
3) 状态:一个表示环境的数据,状态集则是环境中所有可能的状态。
4) 动作:基于当前的状态,智能体可以采取哪些动作,例如向左或右、向上或下;动作是和状态强挂钩的,如图 1 中很多位置都是有隔板的,很明显智能体在此状态下是不能向左或者向右的,只能向上或向下。
5) 奖励:该信号定义了强化学习问题的目标,在每个时间步内,环境向强化学习发出的标量值即为奖励,它能定义智能体表现得好坏,因此可以理解为奖励信号是影响策略的主要因素。
6) 策略:定义了智能体对给定状态所做的动作,换句话说,就是一个从状态到动作的映射,事实上状态包括了环境状态和智能体状态,因此可以认为策略是到动作的映射,事实上状态包括了环境状态和智能体状态,因此可以认为策略是强化学习系统的核心,因为完全可以通过策略来确定每个状态下的动作。
1) 试错学习。强化学习需要训练对象不停地和环境进行交互,通过试错的方式去总结出每一步的最佳行为决策。所有的学习基于环境反馈,训练对象去调整自己的动作决策。
2) 延迟反馈。强化学习训练过程中,训练对象的“试错”行为获得环境的反馈,有时可能需要等到整个训练结束以后才会得到一个反馈,这种情况下,在训练时一般都是进行拆解的,尽量将反馈分解到每一步。
3) 时间是强化学习的一个重要因素。强化学习的一系列环境状态的变化和环境反馈等都和时间强挂钩,整个强化学习的训练过程是一个随着时间变化而状态与反馈也在不停变化的过程,所以时间是强化学习的一个重要因素。
4) 当前的行为影响后续接收到的数据。在监督学习与半监督学习中,每条训练数据都是独立的,相互之间没有任何关联。但是强化学习中并不是这样的,当前状态以及采取的动作将会影响下一步接收到的状态。数据与数据之间存在一定的关联性。
反复实验(trial and error)和延迟奖励(delayed reward)是强化学习最重要的两个特征。
强化学习与监督学习、非监督学习和半监督学习这 3 种学习方式的不同点在于,强化学习训练时,需要环境给予反馈,以及对应具体的反馈值。强化学习主要是指导训练对象每一步如何决策、采用什么样的行动可以完成特定的目的或使收益最大化。
强化学习的组成部分
强化学习系统架构如下图所示:
图 1 强化学习系统架构
它主要包含 6 个要素:智能体(agent)、状态(state)、动作(action)、奖励(reward)、策略(policy)以及环境或者说是模型(model):
1) 智能体(机器人、代理):强化学习的本体,作为学习者或者决策者。
2) 环境:对环境的模拟,例如,当给出了状态与动作后,有了模型就可以预测接下来的状态和对应的奖励。需注意的一点是,并非所有的强化学习系统都需要有一个模型,因此有基于模型(model-based)、不基于模型(model-free)两种不同的方法,不基于模型的方法主要通过对策略和价值函数分析进行学习。
3) 状态:一个表示环境的数据,状态集则是环境中所有可能的状态。
4) 动作:基于当前的状态,智能体可以采取哪些动作,例如向左或右、向上或下;动作是和状态强挂钩的,如图 1 中很多位置都是有隔板的,很明显智能体在此状态下是不能向左或者向右的,只能向上或向下。
5) 奖励:该信号定义了强化学习问题的目标,在每个时间步内,环境向强化学习发出的标量值即为奖励,它能定义智能体表现得好坏,因此可以理解为奖励信号是影响策略的主要因素。
6) 策略:定义了智能体对给定状态所做的动作,换句话说,就是一个从状态到动作的映射,事实上状态包括了环境状态和智能体状态,因此可以认为策略是到动作的映射,事实上状态包括了环境状态和智能体状态,因此可以认为策略是强化学习系统的核心,因为完全可以通过策略来确定每个状态下的动作。
强化学习的主要特点
根据强化学习的系统架构,其有以下几个主要特点:1) 试错学习。强化学习需要训练对象不停地和环境进行交互,通过试错的方式去总结出每一步的最佳行为决策。所有的学习基于环境反馈,训练对象去调整自己的动作决策。
2) 延迟反馈。强化学习训练过程中,训练对象的“试错”行为获得环境的反馈,有时可能需要等到整个训练结束以后才会得到一个反馈,这种情况下,在训练时一般都是进行拆解的,尽量将反馈分解到每一步。
3) 时间是强化学习的一个重要因素。强化学习的一系列环境状态的变化和环境反馈等都和时间强挂钩,整个强化学习的训练过程是一个随着时间变化而状态与反馈也在不停变化的过程,所以时间是强化学习的一个重要因素。
4) 当前的行为影响后续接收到的数据。在监督学习与半监督学习中,每条训练数据都是独立的,相互之间没有任何关联。但是强化学习中并不是这样的,当前状态以及采取的动作将会影响下一步接收到的状态。数据与数据之间存在一定的关联性。