一个全面的移动端和PC端智能代理相关资源集合,包含最新论文、数据集和基准测试。收录了各类移动端智能代理系统的训练方法、输入类型、模型架构等详细对比,以及主流数据集的详细信息统计。
katakomba是一个专为NetHack游戏设计的数据驱动的基准测试工具,提供超过30个标准化数据集,并支持多种基于循环的离线强化学习基线模型,旨在促进研究和开发中的基准测试。
一个基准测试工具,用于研究和评估开源大型语言模型在软件工具操作方面的能力,提供了多样化的软件工具和易于使用的基础设施,可以直接评估每个模型的执行成功率。
JudgeLM是经过微调的语言大模型,旨在有效、高效地在开放式基准测试中评估语言大模型(LLM),提供系统化的模型能力和行为分析,解决多种偏见问题,并在新旧基准测试中展示出色的评判性能。
该项目提供多种大语言模型微调数据集,旨在帮助用户训练和优化自己的ChatGPT模型,涵盖了多个领域和主题,资源易于访问和使用,适合研究和教育目的。
LLMSurvey是一个提供LLaMA模型族进化图的项目,用户可以通过该工具查看不同版本模型的性能,比较多种模型参数,并获取相关的训练和评估数据。
EgoExoLearn是一个数据集,旨在将自我中心与外部中心的视角结合,以解析现实世界中的程序活动。该项目关注程序活动的异步数据收集,提供丰富的场景和数据,以便更好地理解人类行为。
LOMO是复旦大学提出的新论文,旨在使用单台8片24G的RTX 3090对Llama 65B模型进行全参数微调。该项目通过优化训练效率和性能,为用户提供了兼容多种深度学习框架的解决方案,并附带详细的实验结果和分析,帮助用户更好地理解模型的表现。
最小化的分布式训练框架,专为教育目的设计,让你轻松学习并实验预训练Llama类模型
这是一个根据领域分类的元学习论文列表,提供全面的文献分类、便捷的导航和最新研究的定期更新。用户还可以贡献建议和新论文。
OpenRouter是一个专为大型语言模型(LLM)和其他AI模型设计的路由器,用户可以浏览排名和文档,以找到最佳模型及其价格,从而优化他们的提示使用体验。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型