1. 学习了C++中的字符串、string类:初始化,赋值,拼接,附加,输入。
2. 学习了C++的结构(体):结构体类型的定义,初始化
3. 读了Beyond Uniform Sampling: Offline Reinforcement Learning with Imbalanced Datasets:本文首先发现:当数据集中存在大量非最优轨迹时,SOTA offlineRL算法难以显著的超过数据集中的平均return。本文认为这可能是因为当前的SOTA offlineRL算法总是贴近于数据集,而过度的贴近将导致策略模仿次优动作。本文的解决方式是提出一种采样方式使得策略仅被限制在好的数据中而不是数据集中的所有动作(均匀采样)。
2024-04-25
在牛客打卡10天,今天也很努力鸭!
全部评论
大佬是研究生吗?研究方向是离线强化学习?
点赞 回复 分享
发布于 05-07 22:38 江苏

相关推荐

手撕没做出来是不是一定挂
Chrispp3:不会,写出来也不一定过
点赞 评论 收藏
分享
我见java多妩媚:大外包
点赞 评论 收藏
分享
找不到工作死了算了:没事的,雨英,hr肯主动告知结果已经超越大部分hr了
点赞 评论 收藏
分享
评论
点赞
收藏
分享
牛客网
牛客企业服务