强化学习简介-程序员宅基地

1.强化学习简介

强化学习（Reinforcement Learning，RL） 是机器学习中的一个领域，是学习“做什么（即如何把当前的情景映射成动作）才能使得数值化的收益信号最大化”。学习者不会被告知应该采取什么动作，而是必须自己通过尝试去发现哪些动作会产生最丰厚的收益。

强化学习同机器学习领域中的有监督学习和无监督学习不同，有监督学习是从外部监督者提供的带标注训练集中进行学习（任务驱动型），无监督学习是一个典型的寻找未标注数据中隐含结构的过程（数据驱动型）。强化学习是与两者并列的第三种机器学习范式，强化学习带来了一个独有的挑战——“试探” 与 “开发” 之间的折中权衡，智能体必须开发已有的经验来获取收益，同时也要进行试探，使得未来可以获得更好的动作选择空间（即从错误中学习）。
在这里插入图片描述

2.强化学习的基本概念

在强化学习中，有两个可以进行交互的对象：智能体（Agnet） 和 环境（Environment）：

智能体：可以感知环境的状态（State），并根据反馈的奖励（Reward）学习选择一个合适的动作（Action），来最大化长期总收益。对于推荐系统，智能体为推荐系统本身，它包括基于深度学习的推荐模型、探索(explore )策略，以及相关的数据存储(memory )。

状态（State） 在新闻推荐场景中，状态可以被看作已收到所有行动和反馈，以及用户和新闻的所有相关信息的特征向量表示。站在传统机器学习的角度，“状态”可以被看作已收到的、可用于训练的所有数据的集合

动作（Action） 推荐系统进行新闻排序后推送给用户的动作。

反馈： 用户收到推荐结果后，进行正向的或负向的反馈。例如，点击行为被认为是一个典型的正反馈，曝光未点击则是负反馈的信号。此外，用户的活跃程度，用户打开应用的间隔时间也被认为是有价值的反馈信号。
环境：环境会接收智能体执行的一系列动作，对这一系列动作进行评价并转换为一种可量化的信号反馈给智能体。

环境： 由新闻网站或App、用户组成的整个推荐系统外部环境。在环境中，用户接收推荐的结果并做出相应反馈。

在这样的强化学习框架下，模型的学习过程可以不断地迭代，迭代过程主要有如下几步：

初始化推荐系统(智能体)。
推荐系统基于当前已收集的数据(状态)进行新闻排序(行动),并推送到网站或App (环境)中。
用户收到推荐列表，点击或者忽略(反馈)某推荐结果。
推荐系统收到反馈，更新当前状态或通过模型训练更新模型。

强化学习相比传统深度模型的优势就在于强化学习模型能够进行“在线学习”，不断利用新学到的知识更新自己，及时做出调整和反馈。
在这里插入图片描述

除了智能体和环境之外，强化学习系统有四个核心要素：策略（Policy）、回报函数（收益信号，Reward Function）、价值函数（Value Function）和环境模型（Environment Model），其中环境模型是可选的。

策略：定义了智能体在特定时间的行为方式。策略是环境状态到动作的映射。
回报函数：定义了强化学习问题中的目标。在每一步中，环境向智能体发送一个称为收益的标量数值。
价值函数：表示了从长远的角度看什么是好的。一个状态的价值是一个智能体从这个状态开始，对将来累积的总收益的期望。
环境模型：是一种对环境的反应模式的模拟，它允许对外部环境的行为进行推断。

强化学习是一种对目标导向的学习与决策问题进行理解和自动化处理的计算方法。它强调智能体通过与环境的直接互动来学习，而不需要可效仿的监督信号或对周围环境的完全建模，因而与其他的计算方法相比具有不同的范式。

强化学习使用马尔可夫决策过程的形式化框架，使用状态，动作和收益定义学习型智能体与环境的互动过程。这个框架力图简单地表示人工智能问题的若干重要特征，这些特征包含了对因果关系的认知，对不确定性的认知，以及对显式目标存在性的认知。

价值与价值函数是强化学习方法的重要特征，价值函数对于策略空间的有效搜索来说十分重要。相比于进化方法以对完整策略的反复评估为引导对策略空间进行直接搜索，使用价值函数是强化学习方法与进化方法的不同之处。

3.示例与应用

目前，强化学习在包括游戏，广告和推荐，对话系统，机器人等多个领域均展开了广泛的应用。

游戏

AlphaGo 是于 2014 年开始由英国伦敦 Google DeepMind 开发的人工智能围棋软件。AlphaGo 使用蒙特卡洛树搜索(Monte Carlo tree search)，借助估值网络(value network)与走棋网络(policy network)这两种深度神经网络，通过估值网络来评估大量选点，并通过走棋网络选择落点。
在这里插入图片描述

广告和推荐

在这里插入图片描述

对话系统
在这里插入图片描述

机器人
在这里插入图片描述

本文仅仅作为个人学习记录，不作为商业用途，谢谢理解。

参考：https://leovan.me/cn/2020/05/introduction-of-reinforcement-learning/

本文链接：https://blog.csdn.net/weixin_44852067/article/details/130117105

原作者删帖不实内容删帖广告或垃圾文章投诉

智能推荐

hive使用适用场景_大数据入门：Hive应用场景-程序员宅基地

文章浏览阅读5.8k次。在大数据的发展当中，大数据技术生态的组件，也在不断地拓展开来，而其中的Hive组件，作为Hadoop的数据仓库工具，可以实现对Hadoop集群当中的大规模数据进行相应的数据处理。今天我们的大数据入门分享，就主要来讲讲，Hive应用场景。关于Hive，首先需要明确的一点就是，Hive并非数据库，Hive所提供的数据存储、查询和分析功能，本质上来说，并非传统数据库所提供的存储、查询、分析功能。Hive..._hive应用场景

zblog采集-织梦全自动采集插件-织梦免费采集插件_zblog 网页采集插件-程序员宅基地

文章浏览阅读496次。Zblog是由Zblog开发团队开发的一款小巧而强大的基于Asp和PHP平台的开源程序，但是插件市场上的Zblog采集插件，没有一款能打的，要么就是没有SEO文章内容处理，要么就是功能单一。很少有适合SEO站长的Zblog采集。人们都知道Zblog采集接口都是对Zblog采集不熟悉的人做的，很多人采取模拟登陆的方法进行发布文章，也有很多人直接操作数据库发布文章，然而这些都或多或少的产生各种问题，发布速度慢、文章内容未经严格过滤，导致安全性问题、不能发Tag、不能自动创建分类等。但是使用Zblog采._zblog 网页采集插件

Flink学习四：提交Flink运行job_flink定时运行job-程序员宅基地

文章浏览阅读2.4k次，点赞2次，收藏2次。restUI页面提交1.1 添加上传jar包1.2 提交任务job1.3 查看提交的任务2. 命令行提交./flink-1.9.3/bin/flink run -c com.qu.wc.StreamWordCount -p 2 FlinkTutorial-1.0-SNAPSHOT.jar3. 命令行查看正在运行的job./flink-1.9.3/bin/flink list4. 命令行查看所有job./flink-1.9.3/bin/flink list --all._flink定时运行job

STM32-LED闪烁项目总结_嵌入式stm32闪烁led实验总结-程序员宅基地

文章浏览阅读1k次，点赞2次，收藏6次。这个项目是基于STM32的LED闪烁项目，主要目的是让学习者熟悉STM32的基本操作和编程方法。在这个项目中，我们将使用STM32作为控制器，通过对GPIO口的控制实现LED灯的闪烁。这个STM32 LED闪烁的项目是一个非常简单的入门项目，但它可以帮助学习者熟悉STM32的编程方法和GPIO口的使用。在这个项目中，我们通过对GPIO口的控制实现了LED灯的闪烁。LED闪烁是STM32入门课程的基础操作之一，它旨在教学生如何使用STM32开发板控制LED灯的闪烁。_嵌入式stm32闪烁led实验总结

Debezium安装部署和将服务托管到systemctl-程序员宅基地

文章浏览阅读63次。本文介绍了安装和部署Debezium的详细步骤，并演示了如何将Debezium服务托管到systemctl以进行方便的管理。本文将详细介绍如何安装和部署Debezium，并将其服务托管到systemctl。解压缩后，将得到一个名为"debezium"的目录，其中包含Debezium的二进制文件和其他必要的资源。注意替换"ExecStart"中的"/path/to/debezium"为实际的Debezium目录路径。接下来，需要下载Debezium的压缩包，并将其解压到所需的目录。

Android 控制屏幕唤醒常亮或熄灭_android实现拿起手机亮屏-程序员宅基地

文章浏览阅读4.4k次。需求：在诗词曲文项目中，诗词整篇朗读的时候，文章没有读完会因为屏幕熄灭停止朗读。要求：在文章没有朗读完毕之前屏幕常亮，读完以后屏幕常亮关闭；1.权限配置：设置电源管理的权限。

随便推点

目标检测简介-程序员宅基地

文章浏览阅读2.3k次。目标检测简介、评估标准、经典算法_目标检测

记SQL server安装后无法连接127.0.0.1解决方法_sqlserver 127 0 01 无法连接-程序员宅基地

文章浏览阅读6.3k次，点赞4次，收藏9次。实训时需要安装SQL server2008 R所以我上网上找了一个.exe 的安装包链接：https://pan.baidu.com/s/1_FkhB8XJy3Js_rFADhdtmA提取码：ztki注：解压后1.04G安装时Microsoft需下载.NET，更新安装后会自动安装如下：点击第一个傻瓜式安装，唯一注意的是在修改路径的时候如下不可修改：到安装实例的时候就可以修改啦数据..._sqlserver 127 0 01 无法连接

js 获取对象的所有key值，用来遍历_js 遍历对象的key-程序员宅基地

文章浏览阅读7.4k次。1. Object.keys(item); 获取到了key之后就可以遍历的时候直接使用这个进行遍历所有的key跟valuevar infoItem={ name:'xiaowu', age:'18',}//的出来的keys就是[name,age]var keys=Object.keys(infoItem);2. 通常用于以下实力中 <div *ngFor="let item of keys"> <div>{{item}}.._js 遍历对象的key

粒子群算法（PSO）求解路径规划_粒子群算法路径规划-程序员宅基地

文章浏览阅读2.2w次，点赞51次，收藏310次。粒子群算法求解路径规划路径规划问题描述给定环境信息，如果该环境内有障碍物，寻求起始点到目标点的最短路径，并且路径不能与障碍物相交，如图 1.1.1 所示。1.2 粒子群算法求解1.2.1 求解思路粒子群优化算法（PSO），粒子群中的每一个粒子都代表一个问题的可能解，通过粒子个体的简单行为，群体内的信息交互实现问题求解的智能性。在路径规划中，我们将每一条路径规划为一个粒子，每个粒子群群有 n 个粒子，即有 n 条路径，同时，每个粒子又有 m 个染色体，即中间过渡点的_粒子群算法路径规划

量化评价：稳健的业绩评价指标_rar 海龟-程序员宅基地

文章浏览阅读353次。所谓稳健的评估指标，是指在评估的过程中数据的轻微变化并不会显著的影响一个统计指标。而不稳健的评估指标则相反，在对交易系统进行回测时，参数值的轻微变化会带来不稳健指标的大幅变化。对于不稳健的评估指标，任何对数据有影响的因素都会对测试结果产生过大的影响，这很容易导致数据过拟合。_rar 海龟

IAP在ARM Cortex-M3微控制器实现原理_value line devices connectivity line devices-程序员宅基地

文章浏览阅读607次，点赞2次，收藏7次。–基于STM32F103ZET6的UART通讯实现一、什么是IAP，为什么要IAPIAP即为In Application Programming(在应用中编程)，一般情况下，以STM32F10x系列芯片为主控制器的设备在出厂时就已经使用J-Link仿真器将应用代码烧录了，如果在设备使用过程中需要进行应用代码的更换、升级等操作的话，则可能需要将设备返回原厂并拆解出来再使用J-Link重新烧录代码，这就增加了很多不必要的麻烦。站在用户的角度来说，就是能让用户自己来更换设备里边的代码程序而厂家这边只需要提供给_value line devices connectivity line devices