sparrow 是一个利用机器学习技术从扫描文档中提取结构化数据的工具。它支持多种文档格式,并提供了一个用户友好的演示界面,方便用户测试和验证文档提取模型。该项目是开源的,代码托管在GitHub上。
SpecStory是专为Cursor IDE设计的Visual Studio Code扩展,能够自动保存每一次Cursor聊天和编程会话到本地项目的.specstory目录中,确保AI编程历程的可追溯性。它帮助开发者轻松管理和回顾编程过程,特别适合需要追踪AI编程进展的用户。
Qwen2.5-VL是一款功能强大的多模态语言模型,擅长视觉-语言任务,具备增强的文档解析、物体定位和视频理解能力。
r1_vlm是一个专为训练视觉语言模型(VLM)设计的高效工具包,旨在简化模型训练过程并提升任务执行效率。该工具包采用了基于GRPO的高效训练方法,在解码任务上能够达到96%的准确率,支持多种任务,包括信息解码和数字识别。
GLM-4是智谱开源的一个系列模型,包含基座模型、不同上下文长度的Chat模型和视觉模型。该系列模型在性能上全面超越LLaMA 3 8B,具备更快的速度和更低的价格。GLM-4支持1M无损上下文和26种语言,函数调用能力提升40%,视觉模型GLM 4V 9B的能力比肩GPT 4V。
translation-agent-webui是吴恩达translation-agent翻译项目的一个基于gradio的Web用户界面。它能够自动检测输入文本的语言,支持文本分词展示,并突出显示不同翻译版本之间的差异,帮助用户更直观地理解和比较翻译结果。
DeepMind Lab2D是由DeepMind开发的2D虚拟环境平台,专为强化学习(RL)和智能体训练设计。它提供了一个高度可定制且高效的训练环境,支持研究人员在各种AI任务中进行实验和优化。
Personal AI 是一个利用 Apple Shortcuts、Cloudflare Workers 和 Llama 3 组装的本地 AI 助手,无需额外硬件或月费。它通过 Apple Shortcuts 提供 ASR、TTS 和 HTTP 请求功能,并通过 Cloudflare Workers 处理文本和函数调用。该助手支持与 Llama 3 的集成,比所有 AI 可穿戴设备更快,并且可扩展以支持更复杂的函数调用和内存管理。
DCLM-7B是由苹果开源的一个大型语言模型,其能力接近LLaMA3 8B。该项目完全开源,包括模型和数据集,但上下文长度限制为2K。该模型在Huggingface上提供,适用于多种自然语言处理任务,如文本生成、翻译和问答。此外,它还可作为基础模型进行微调以适应特定任务,并在研究和开发中用于探索大型语言模型的性能。该项目也适用于教育和学习目的,帮助理解大型语言模型的工作原理。
OpenCV Zoo是由OpenCV提供的预训练深度学习模型和算法集合,适用于各种计算机视觉任务。该项目包含了多种预训练模型,支持多种深度学习框架,如TensorFlow、PyTorch和ONNX,并提供了易于使用的API,方便将模型集成到应用中。项目开源且社区驱动,定期更新新模型和改进。
OvercookedGPT是一个OpenAI Gym环境,旨在评估大型语言模型(如GPT-4和Claude)在动态多智能体环境中的长期推理和任务规划能力。它提供了一个交互式的2D游戏环境,支持多种LLM,并生成时间序列任务,适用于复杂场景下的AI模型训练与评估。
RLAMA是一个强大的文档AI问答工具,能够连接本地Ollama模型。它支持创建、管理和交互RAG系统,满足各类文档处理需求。支持超过30种文档格式,包括文本、代码和常见办公文件,且无需复杂配置,仅需Ollama即可在本地运行。
transbridge 是一款专为调用大模型接口进行翻译而设计的开源、免费软件。它在大模型的基础上提供增值服务,支持二次开发,适用于多种专业领域的翻译。项目支持多提供商、多模型加载均衡、多级缓存机制,并兼容 DeepL API 接口格式,具备高性能和跨平台特性。
基于SAM 2模型的零样本视觉追踪框架,引入了运动感知记忆机制,能够在视频中实时追踪和分割目标物体,适用于复杂动态环境。
《动手学深度学习》原书中MXNet代码实现的TensorFlow 2.0版本,适合喜欢TensorFlow的用户参考学习。该项目将《动手学深度学习》中的MXNet代码转换为TensorFlow 2.0实现,提供了深度学习基础知识的TensorFlow实现示例,代码结构清晰,易于理解和扩展。
DINOv2编码器微调助手利用低秩适应(LoRA)技术对视觉任务进行编码器权重微调,简化新任务适配过程,显著提高模型在图像分割等视觉任务上的表现。该项目支持DINOv2编码器的微调,优化视觉任务的性能,适用于计算机视觉领域的各种任务。
AIRS(Artificial Intelligence Research for Science)是由德克萨斯农工大学DIVE实验室发布的开源软件工具、数据集和基准测试的集合,旨在推动人工智能在量子物理、化学、分子模拟、药物发现和材料科学等科学领域的应用。
DeepSentinel是一个强大的AI安全平台,旨在通过高级数据隐私保护、合规性监控和实时威胁检测来保护AI工作流程。它提供全面的保护,确保数据安全,同时为各种规模的企业提供经济实惠且可扩展的解决方案。
AI Codex是Cursor AI的自我提升系统,类似于其'学习笔记',能够帮助AI从错误中吸取教训,不断提升自身能力。该系统通过记录、分析和学习错误,避免重复犯错,从而提高AI的编程能力和效率。
Yi-Coder是一系列开源代码语言模型,以少于100亿参数的规模提供最先进的编码性能。它支持52种主要编程语言,包括Java、Python、JavaScript和C++,并具备长文本理解能力,最大上下文长度为128K token。
blurr是一个将Hugging Face Transformers与fastai v2框架无缝集成的库,旨在简化在fastai中使用最先进的自然语言处理(NLP)模型的过程。它支持广泛的Hugging Face Transformer模型,并提供了数据预处理和模型评估的实用工具,使得在自定义数据集上微调Transformer模型变得非常容易。
Diamond Env是一个为强化学习设计的标准化环境,基于Minecraft中的Diamond任务。它提供了一致的实验条件,支持多种强化学习算法,并允许用户自定义任务和奖励机制。该环境适用于研究Minecraft中的智能体行为,并可作为基准环境进行性能评估。
Iterra AI 是一个无代码平台,用户只需描述他们的想法,即可创建iOS应用程序。通过利用AI技术,它能够即时生成SwiftUI代码,实现快速应用开发,无需任何编程技能。用户可以实时预览他们的应用,在Xcode中自定义生成的代码,并轻松将应用程序部署到App Store。
Nanobrowser是一款开源的AI网页自动化工具,作为OpenAI Operator的替代品,支持在本地浏览器中运行,注重隐私保护。它基于多智能体系统,能够自主完成复杂的网页任务,支持信息提取和自动化操作。用户可以使用自己的LLM API密钥,灵活选择不同的模型为智能体提供支持。该工具完全免费,无需订阅费用,数据永不外泄,适合需要隐私保护和高度自定义的用户。
book.fast.ai是为阅读fastai书籍的读者提供的信息平台,包含代码示例、教程以及深度学习从业者的资源。项目定期更新,提供新内容和改进,帮助用户更好地理解和应用深度学习概念。
Awesome Isaac Gym 是一个精心整理的 NVIDIA Isaac Gym 相关框架、论文、软件和资源列表,旨在帮助机器人学习和强化学习研究。它提供了丰富的学习材料和视频教程,支持多种强化学习框架,以加速机器人开发。
blender-mcp 是一个开源项目,通过 MCP(Model Control Protocol)实现 Claude AI 直接与 Blender 进行对话和控制,用户可以通过文字提示快速创建和调整复杂的 3D 场景。该项目简化了 3D 建模流程,提高了创作效率,适用于快速原型设计、自动化建模任务以及教育和演示用途。
《Fastai & Pytorch深度学习入门》第二版代码,由fast.ai提供,目前正在开发中。该项目旨在通过提供深度学习的入门教程和代码示例,帮助初学者和进阶学习者快速掌握深度学习的基础知识和实践技能。项目基于PyTorch框架,易于上手,包含丰富的实践案例和项目,持续更新,紧跟最新技术发展。
Platus是一个由人工智能驱动的法律工作空间,能够自动化处理法律任务,如文件公证、起草和签署。它通过整合组织的知识库,提供全面的工具包,帮助用户高效管理法律文档流程。
AutoKeras是一个开源的AutoML框架,专注于自动化机器学习模型的构建和优化,适用于各种机器学习任务。它通过自动搜索最佳模型和超参数,显著节省开发时间,同时其简洁的API设计降低了机器学习的门槛,使得即使没有深厚机器学习背景的用户也能轻松上手。