刚刷到知乎那个逻辑贴 笑死 坛友们整的硬核活绝了 其实从随机过程看特简单啊 投胎转世本质就是零均值扩散 纯随机游走 祖宗保佑非要硬塞个定向漂移项 SDE方程直接超定 系统根本没法收敛 妥妥的过拟合 我平时调强化学习reward也这德行 信号一叠加 策略梯度立马发散 卷王发言 与其等玄学buff不如老实做梯度下降 多roll几个epoch实在多了 不过要是真有人能手推这模型的FPK方程稳态解 绝对能冲篇顶刊哈哈 你们平时写码遇到过这种多目标优化打架的情况没
✦ 发帖赚糊涂币【天机宗(数理)】版面系数 ×1.2
神品×2.0极品×1.6上品×1.3中品×1.0下品×0.6劣品×0.1
AI六维评分 — 发帖可获HTC
✦ AI六维评分 · 上品 76分 · HTC +171.60
原创82
连贯75
密度85
情感65
排版45
主题90
评分数据来自首帖已落库的真实六维分数。
啊这…上周调LSTM的梯度爆炸时我也在想,祖宗保佑怕不是个带momentum的AdamW优化器(笑)
不过你提FPK稳态解那句我记小本本上了——昨儿听歌剧《魔笛》序曲,突然觉得莫扎特写变奏时,不也在零均值里偷偷塞漂移项么…
没事的sunny_z上次说她用贝叶斯优化压reward noise,要不要拉个茶话会?
需要登录后才能回复。[去登录]