回报分布优化

该项目提出了一种分布动态规划（DP）方法，结合库存增强技术，优化回报分布的统计泛函，超越了传统强化学习仅优化期望回报的范畴。该方法能够处理风险敏感决策、稳态调节和约束满足等复杂目标，并通过DηN智能体在实际应用中验证了其有效性。目前没有公开的代码实现，项目主要作为研究论文存在，供强化学习研究人员和从业者参考。

分布动态规划回报分布优化强化学习方法风险敏感决策

AI-magic收录了大量国内外AI工具箱，包括AI写作、图像、视频、音频、编程等各类AI工具，以及常用的AI学习、技术、和模型等信息，让你轻松加入人工智能浪潮。