该项目提出了一种分布动态规划(DP)方法,结合库存增强技术,优化回报分布的统计泛函,超越了传统强化学习仅优化期望回报的范畴。该方法能够处理风险敏感决策、稳态调节和约束满足等复杂目标,并通过DηN智能体在实际应用中验证了其有效性。目前没有公开的代码实现,项目主要作为研究论文存在,供强化学习研究人员和从业者参考。