MME-CoT开源项目 – 多模态大模型推理能力评估基准

MME-CoT是一个为多模态大模型提供全面推理能力评估的基准测试工具。它覆盖了数学、科学、OCR等六大领域，通过提出三项新指标，深度剖析模型的推理质量、鲁棒性和效率，揭示模型在视觉推理任务中的表现，从而助力多模态模型的发展。

MME-CoT的特点:

1. 覆盖6大领域，包括数学、科学、OCR等，全面评估模型能力
2. 提出3项新指标，深度剖析推理质量、鲁棒性和效率
3. 揭示模型在视觉推理任务中的表现，助力多模态模型发展

MME-CoT的功能:

1. 用于评估多模态大模型在数学领域的推理能力
2. 用于评估多模态大模型在科学领域的推理能力
3. 用于评估多模态大模型在OCR任务中的表现
4. 用于分析模型的推理质量、鲁棒性和效率
5. 用于揭示模型在视觉推理任务中的表现，促进多模态模型的发展

相关导航

GET3D开源项目 – 开源3D模型生成工具

GET3D是英伟达开源的3D模型生成工具，利用对抗生成网络（GAN）生成合理面数的3D模型，并配有高清贴图。该工具支持隐空间漫游和文字引导模型，能够生成多种类型的3D模型。

changedetection.io开源项目 – 网页变化监控工具

changedetection.io 是一个开源的网页变化监控工具，能够自动化检测网页内容的任何变化，并通过电子邮件、Slack、Discord、Telegram 等多种渠道发送实时通知。它支持实时监控、多种通知方式、目标元素选择、浏览器自动化、自定义频率和虚拟位置支持等功能。用户可以使用 Docker 快速部署，并通过 Chrome 插件进行便捷安装。该项目适用于个人和企业用户，帮助他们实时捕捉网页变化，如商品价格、库存变化或网站公告更新等。

Pix2Text开源项目 – 高效的图像文本识别工具

Pix2Text 是一个用于将图像中的文本和数学公式转换为可编辑格式的工具，支持 80+ 种语言的识别，提供高精度的识别模型，优化了识别逻辑和输出格式，增强了用户体验。

SWE-RL开源项目 – 强化学习增强软件工程推理能力

SWE-RL是Meta发布的第一个使用强化学习（RL）专门用于增强大型语言模型（LLM）处理现实世界软件工程（SE）能力的RL方法。该项目专注于垂直细分领域的RL推理大模型，具有处理GitHub上issue问题、软件代码生成和项目bug修复等能力。通过开源软件演进数据和基于规则的奖励机制，推动大型语言模型推理能力的强化学习项目。

fastbook2e开源项目 – 深度学习入门与实践

《Fastai & Pytorch深度学习入门》第二版代码，由fast.ai提供，目前正在开发中。该项目旨在通过提供深度学习的入门教程和代码示例，帮助初学者和进阶学习者快速掌握深度学习的基础知识和实践技能。项目基于PyTorch框架，易于上手，包含丰富的实践案例和项目，持续更新，紧跟最新技术发展。

Browserbase MCP Server开源项目 – LLM与外部数据源无缝集成

Browserbase MCP Server 是一个开源项目，旨在为大型语言模型（LLM）提供与外部数据源和工具无缝集成的能力。它通过云端浏览器自动化，使LLM能够与网页互动，提取数据，并执行JavaScript，从而扩展了LLM的应用场景。项目基于Browserbase、Puppeteer和Stagehand技术，提供浏览器自动化、数据提取、控制台监控、屏幕截图、JavaScript执行和Web交互等功能。

Unity MCP Package开源 – Unity与LLM双向通信工具

Unity MCP Package是一个开源Unity软件包，通过模型上下文协议(MCP)实现Unity编辑器与大型语言模型(如Claude Desktop)的无缝双向通信。该项目作为桥梁服务器，允许开发者通过自然语言指令自动化工作流、操作资产、控制场景及编辑器功能，显著提升游戏开发效率。支持Unity 2020.3 LTS及以上版本(需URP)，需配合Python 3.12+和uv包管理器使用。

NeuralKG开源项目 – 基于PyTorch Lightning的知识图谱表示学习框架

NeuralKG是一个基于PyTorch Lightning开发的知识图谱表示学习框架，集成了多种知识图谱表示学习模型。它支持传统知识图谱表示学习模型、基于图神经网络的知识图谱表示学习模型以及基于规则的知识图谱表示学习模型。NeuralKG采用模块化设计，便于个性化和维护，能够高效、可扩展地进行知识图谱表示学习任务。

Lightning IR开源项目 – 基于PyTorch Lightning的信息检索库

Lightning IR 是一个基于 PyTorch Lightning 的库，专门用于微调和运行基于 transformer 的语言模型进行信息检索任务。它提供了完整的解决方案，支持多种信息检索任务和数据集，简化了模型训练和推理过程，同时易于扩展和定制。

Markdownify开源项目 – 多格式转Markdown工具

Markdownify是一个基于模型上下文协议（MCP）的服务器，能够将多种文件类型（如PDF、图像、音频、文档、表格、PPT等）以及网页内容（如YouTube视频、Bing搜索结果）转换为Markdown格式。它操作简单，支持开箱即用，适合需要将复杂内容快速转换为Markdown格式的用户。

codecv开源项目 – Markdown简历生成工具

codecv是一款开源的个人简历生成工具，支持使用Markdown语法快速编写和生成专业简历。它提供了丰富的模板和个性化定制功能，用户可以将Markdown格式的简历转换为PDF。项目支持Docker快速部署和本地安装调试，适用于技术人才和非技术背景的专业人士。

GPTs开源项目 – 集合优秀 GPT 提示，助力用户

一个集合了优秀 GPT 提示的项目，旨在帮助用户更好地利用 GPT 技术。该项目提供了多种高质量的提示，支持不同场景的应用，易于使用和集成，并且是开源的，欢迎贡献和讨论。

Swarm开源项目 – 轻量级多代理协调框架

Swarm 是一个实验性的教育框架，专注于轻量化、模块化和易于测试的多智能体系统协调。它提供了两种基本抽象：代理（Agent）和传递（Handoff），代理包含指令和工具，可以随时选择将对话传递给另一个代理。Swarm 探索了轻量级、可扩展和高度可定制的模式，最适合处理大量独立的功能和指令。该项目由 OpenAI 提供，旨在简化多智能体系统的协调和执行，并使其可测试。

Music LLM开源项目 – 高效的音乐生成与文本转语音系统

基于 PyTorch 的音乐生成和文本到语音（TTS）系统的实现，该系统使用基于 LLaMA 的大型语言模型（LLMs），并支持在单个 RTX 4090 GPU 上少于 10 小时内训练音乐生成模型

Kinetix开源项目 – 基于JAX的2D物理强化学习框架

Kinetix是一个用JAX编写的2D物理环境中的强化学习框架，能够统一表示多种基于物理的任务，通过生成数百万任务来训练大型通用强化学习代理。该框架提供高效的数值计算和自动微分功能，支持复杂的2D物理环境任务，并且具有灵活的API，方便用户自定义任务和代理。