最新文章

  • 2022-05-01 0 48
    深度强化学习(DRL 5) - 优先回放DQN(Prioritized experience replay)

    目录 一、优先回放 二、代码 参考 全部代码 https://github.com/ColinFred/Reinforce_Learning_Pytorch/tree/main/RL/DQN 一、优先回放 在经验回放中是利用均匀分布采样,而这种方式看上去并不高效,对于智能体而言,这些数据的重要程度并不一样,因此提出优先回放(Prioritized Replay)的方法。优先回放的基本思想就是打破均...

  • 2022-05-01 0 38
    深度强化学习(DRL 4) - DQN的实战(DQN, Double DQN, Dueling DQN)

    目录 一、环境 二、DQN 三、Double DQN 四、Dueling DQN(D3QN) 五、小结 全部代码: https://github.com/ColinFred/Reinforce_Learning_Pytorch/tree/main/RL/DQN 一、环境 查看可用的环境 from gym import envs print(envs.registry.all()) ValuesV...

  • 2022-05-01 0 33
    深度强化学习(DRL 3) - 从Q-learning到Deep Q Network(DQN)

    目录 一、Q-learning 二、Deep Q Network 三、Double DQN 一、Q-learning 关于Q-learning,网上的资料很多。 Q-learning最核心的是有一个Q表,它记录了在环境中的 所有状态(s) 以及每个状态可以进行的 所有行为(a) 的Q值,初值设为0。 状态 \ 行为 a1 a2 a3 a4 s1 s2 s3 …… Q值的更新公式如下: Q ( s ...

  • 2022-05-01 0 42
    深度强化学习(DRL 2) - 强化学习环境Gym

    目录 一、选择框架 二、认识Gym 三、从代码开始 一、选择框架 RL方面学习框架和平台很多,比较出名的有DeepMind的 Control Suite,OpenAI的 Gym 和 MuJoCo,以及Roboschool、PyBullet等等。 模型和算法依赖于后端使用的库有numpy, tensorflow, keras, pytorch等等。 作为一个初学者,我选则比较常用的OpenAI的 G...

  • 2022-05-01 0 50
    深度强化学习(DRL 1) - 入门篇

    目录 前言 一、强化学习(RL)的基本概念 二、主要强化学习算法 2.1 Qlearning 2.2 Deep-Qlearning 2.3 Double-DQN 2.4 Sarsa 2.5 Sarsa lambda 2.6 A3C 三、深度强化学习的局限 四、深度强化学习的作用 4.1 成功的项目 4.2 未来发展 五、研究前沿 参考文献地址 前言 之前通过对AlphaGo Zero的学习,我对深...

  • 2022-05-01 0 32
    深度强化学习(DRL)

    DRL形成背景 深度强化学习(Deep Reinforcement Learning)顾名思义,是深度学习与强化学习的结合,因此深度强化学习弥补了DL和RL的不足之处。 深度学习最近火热,大家也都有所了解,就是通过多层网络和非线性变换,去学习数据的分布式特征表示,因此深度学习侧重于对事物的感知和表达。 而强化学习,了解的同学都知道,通过奖惩机制去挖掘最优策略,因此它侧重于学习解决问题的策略。 因此...

  • 2022-05-01 0 31
    Overlay网络

    1. Overlay 网络 1.1 Overlay 技术概述     Overlay 在网络技术领域,指的是一种网络架构上叠加的虚拟化技术模式,其大体框架是对基础网络不进行大规模修改的条件下,实现应用在网络上的承载,并能与其它网络业务分离,并且以基于IP的基础网络技术为主。Overlay 技术是在现有的物理网络之上构建一个虚拟网络,上层应用只与虚拟网络相关。一个Overlay网络主要由三部分组成:...

  • 2022-05-01 0 29
    理解完这些基本上能解决面试中MySql的事务问题

    越努力,越幸运, 本文已收藏在GitHub中JavaCommunity, 里面有面试分享、源码分析系列文章,欢迎收藏,点赞 https://github.com/Ccww-lx/JavaCommunity 前言 在面试中,基本上都会问到关于数据库的事务问题,如果啥都不会或者只回答到表面的上知识点的话,那面试基本上是没戏了,为了能顺利通过面试,那MySql的事务问题就需要了解,所以就根据网上的资料总...

  • 2022-05-01 0 30
    对高性能秒杀系统的设计思考

    欢迎关注我,每天都分享这一系列: 《提升能力,涨薪可待》 《面试知识,工作可待》 《实战演练,拒绝996》 如果此文对你有帮助、喜欢的话,那就点个赞呗,点个关注呗! 前言 秒杀大家都不陌生。自2011年首次出现以来,无论是双十一购物还是 12306 抢票,秒杀场景已随处可见。简单来说,秒杀就是在同一时刻大量请求争抢购买同一商品并完成交易的过程。从架构视角来看,秒杀系统本质是一个高性能、高一致、高可...

  • 2022-05-01 0 38
    超详细的秒杀架构设计

    前言:秒杀系统相信很多人见过,比如京东或者淘宝的秒杀,小米手机的秒杀,那么秒杀系统的后台是如何实现的呢?我们如何设计一个秒杀系统呢?对于秒杀系统应该考虑哪些问题?如何设计出健壮的秒杀系统?本期我们就来探讨一下这个问题: 博客的目录 一:秒杀系统应该考虑的问题 二:秒杀系统的设计和技术方案 三:系统架构图 四:总结 一:秒杀应该考虑哪些问题 1.1:超卖问题 分析秒杀的业务场景,最重要的有一点就是超...