”算法实践“ 的搜索结果

     PPO是一种off-policy算法,具有较好的性能,其前身是TRPO算法,也是policy gradient算法的一种,它是现在 OpenAI 默认的强化学习算法,具体原理可参考PPO算法讲解。PPO算法主要有两个变种,一个是结合KL penalty的,...

     贪心算法(Greedy algorithm),又称贪婪算法。是一种在每一步选择中都采取在当前状态下最好或最优(即最有利)的选择,从而使得问题得到全局最优解。 贪心的算法的设计就是要遵循某种规则,不断地选取当前最优解的...

     算法兄弟这是算法的思维实践,我想使用这个项目来提高我的算法思维水平,我知道这很困难而且极具挑战性,但是它可以为我打开新世界的大门,对我的职业有利。 算法也可以成为我的兄弟! 所有人都争取尽早实现财务自由...

10  
9  
8  
7  
6  
5  
4  
3  
2  
1