katakomba开源项目 – 数据驱动的NetHack基准测试工具

katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具，提供超过30个标准化数据集，并支持多种基于循环的离线强化学习基线模型，旨在促进研究和开发中的基准测试。

katakomba的特点:

1. 提供超过30个标准化数据集
2. 支持多种基于循环的离线强化学习基线模型
3. 适用于NetHack游戏
4. 促进研究和开发中的基准测试

katakomba的功能:

1. 使用标准化数据集进行模型训练和评估
2. 应用离线强化学习算法进行策略优化
3. 进行NetHack游戏的性能比较和分析

相关导航

Comparing Humans, GPT-4, and GPT-4V On Abstraction and Reasoning Tasks-比较人类与AI在推理任务的表现

该项目旨在比较人类、GPT-4 和 GPT-4V 在抽象和推理任务上的表现，分析不同智能体在这些任务中的能力差异，为理解和提升AI模型提供数据支持。

Acquire AI官网 – 探索、获取或出售创新的AI项目

Acquire AI是一个AI市场和平台，用户可以发现、购买、构建和出售创新且可扩展的AI项目。它为AI爱好者、开发者和企业提供了一个全面的生态系统，以便探索、获取和协作AI项目。

Efficient World Models with Context-Aware Tokenization开源项目 – 高效世界模型与上下文感知分词

该项目专注于利用上下文感知分词来构建高效的世界模型，旨在提升智能体的学习与表现。

hl-gauss-pytorch开源项目 – 基于PyTorch的高斯直方图损失函数

hl-gauss-pytorch是一个基于PyTorch实现的高斯直方图损失函数（HL-Gauss），为回归任务提供了全新的视角，能够有效提升模型的性能。

Diarizers开源项目 – 用于微调说话人辨识模型的库

Diarizers是一个用于微调pyannote说话人辨识模型的库，利用Hugging Face生态系统，提供了便捷的模型训练和评估功能。

Tapered Off-Policy REINFORCE (TOPR)论文 – 稳定高效的LLM微调算法

TOPR 是一种新型强化学习算法，专为微调大型语言模型（LLM）设计，特别针对 off-policy 环境中的 REINFORCE 不稳定性问题。它通过不对称锥形重要性采样稳定学习，无需依赖 KL 正则化，支持完全离线应用，统一处理正负示例，并受益于 Monte Carlo 方法的简单性。实证研究表明，在推理任务的 off-policy 微调中，TOPR 表现优于朴素 REINFORCE、PPO 和 DPO，特别是在 GSM8K 和 MATH 基准测试中表现出色。

Glue Factory开源项目 – CVG的深度学习视觉特征库

Glue Factory是CVG开发的一个库，用于训练和评估深度神经网络，专注于提取和匹配局部视觉特征。

Hora开源项目 – 在模拟器中训练RL策略并部署于机械手

Hora是一个在模拟器中训练强化学习策略，并将其直接部署到真实世界机械手的项目，完全不依赖视觉或触觉输入，旨在实现高效的机械手操作。

gemma-cookbook开源项目 – 谷歌Gemma模型的指南与示例集

gemma-cookbook是一个关于谷歌Gemma模型的全面指南，提供详细的使用说明和多种示例，帮助用户快速上手、训练和评估模型，同时包含最佳实践和优化建议，易于集成到现有的机器学习工作流中。

Landing.ai官网 – 一款快速便捷的计算机视觉平台

Landing AI 是一个计算机视觉平台和人工智能软件公司，提供名为 LandingLens 的云计算机视觉软件平台。用户可以通过自然提示交互在几分钟内创建自定义计算机视觉项目，使构建计算机视觉系统变得快速、简单和直观。用户可以直接拖放图像或通过网络摄像头捕获实时图像，使用标记工具标记图像中的对象，创造高质量的训练数据以实现最大准确性。标记后，用户可以训练模型并评估其性能。一旦模型足够准确，可以通过几次鼠标点击将其部署到云端或边缘设备。用户可以监控模型性能并根据需要进行更新。

critic-rl开源项目 – 通过强化学习提升语言模型表现

critic-rl是一个通过强化学习教语言模型学会批判的项目，旨在让AI模型在无人监督下自我提升。该项目显著提升了语言模型在代码生成等任务中的表现，并具有模型无关性，适用于多种模型和任务。

DeepPath开源项目 – 知识图谱推理的强化学习方法

DeepPath是一种利用强化学习进行知识图谱推理的方法，适用于大规模知识图谱中的高效路径查找。它结合了结构信息和语义信息，能够扩展到复杂且多样化的知识图谱，并提供可解释的推理路径。

GenRL开源项目 – 多模态基础世界模型

GenRL是一个多模态基础世界模型，旨在为通用具身智能体提供支持。它能够将语言和视频提示嵌入到具身领域，通过解码模型的潜在状态序列来可视化预期行为，进而训练智能体执行任务。该项目适用于强化学习和多模态任务的研究，是开发具身智能体的基础模型。

Learning to Generate Better Than Your LLM-应用强化学习提升文本生成质量

研究团队从学习搜索算法中得到启示，利用文本生成的关键特性，应用了强化学习和引导反馈。该算法在IMDB正面评论和文本生成任务上超越了默认的PPO基线，证实了与指导型语言大模型交互的优势。

TRIL开源项目 – 模块化强化学习与模仿学习库

TRIL是一个模块化的强化学习（RL）和模仿学习（IL）算法开发库，基于Hugging Face开源的transformers、accelerate和peft等库，直接支持预训练语言模型并支持分布式计算。它提供了多种算法和任务支持，适用于广泛的机器学习应用场景。

Atari开源项目 – 强化学习研究的先进平台

Atari 是一个专为 Arcade Learning Environment 设计的强化学习项目，集成了优先经验回放、持续优势学习、引导式双重双 DQN 等先进技术，旨在提升强化学习算法的性能和效率。

maçarico开源项目 – PyTorch实现的搜索学习框架

maçarico是一个基于PyTorch实现的命令式学习搜索框架，专为需要搜索和优化的机器学习任务设计。它支持命令式编程风格，提供灵活的搜索策略配置，易于扩展和自定义，并具有高效的学习和推理过程。

暂无评论

暂无评论...