Lit-GPT是一个基于nanoGPT的开源大型语言模型的可定制实现,支持多种先进技术,如Flash Attention 2、4-bit和8-bit量化、LoRA和LLaMA-Adapter微调以及预训练。该项目采用Apache 2.0许可证,支持Llama2、Mistral和Mixtral等模型,旨在提供灵活且高效的模型定制和优化方案。
MUSE是Facebook开源的多语言无监督/有监督词向量库,基于PyTorch和Faiss实现。它支持生成多语言词向量,并提供无监督和有监督的嵌入方法。MUSE易于扩展和定制,集成Faiss库以支持高效的相似性搜索,适用于跨语言任务,如机器翻译和跨语言信息检索。
OpenVINO Model Server 是一个基于英特尔性能优化的推理模型服务器实现,支持 TensorFlow Serving API。它专为高效、高性能的模型推理服务而设计,能够与 OpenVINO 工具包无缝集成,提供可扩展且高效的模型部署解决方案。
Codex是OpenAI推出的AI代码生成与优化模型,能够理解自然语言指令,自动编写、优化和补全代码。它支持多种编程语言,并能根据代码上下文提供智能建议,适用于代码生成、错误修复、性能优化等场景。
LMW-tree是一种并行流标记EM-tree聚类算法,专为网络级规模的应用设计。它能够高效处理大规模数据流,并支持实时数据聚类,适用于需要高效处理数据流的应用场景。
ML Clever 是一个无代码平台,旨在简化企业的机器学习流程。用户无需编程经验即可上传数据、创建管道并获得洞察。该平台提供自动机器学习(AutoML)功能、可定制的AI管道以及拖拽式分析仪表板,专注于为非技术用户提供强大的数据处理和模型部署工具。
unitree_rl_gym是一个专为Unitree机器人设计的强化学习模拟训练平台。它支持多种Unitree机器人模型,提供丰富的训练和演示脚本,旨在帮助研究人员和开发者进行机器人学习和研究。该平台为强化学习算法提供了一个高度可配置的环境,使得用户能够轻松地进行模型训练、测试和结果展示。
timeseries-generator 是一个用于生成合成时间序列数据的库,通过易于使用的因子和生成器,用户可以灵活地创建符合各种模式和趋势的时间序列数据。该库支持自定义参数,并能够与流行的数据分析工具集成,适用于测试、开发、机器学习模型训练以及模拟真实世界时间序列场景等多种用途。
ASTRA-sim 2.0 是一款专注于现代深度学习系统挑战研究的分布式机器学习系统模拟器。它通过模拟分层网络结构,支持大规模分布式训练,旨在探索瓶颈问题并开发大型DNN模型的高效方法论。该项目提供了分层网络和分解系统建模,为研究人员提供了一个强大的平台来研究分布式机器学习系统的性能瓶颈,并开发高效的大规模深度学习训练方法。
TSNet是由哈佛大学研究人员开发的一种神经网络架构,旨在根据输入数据高效地在不同计算路径之间切换。该架构能够动态调整计算流程,适用于处理多种类型的输入数据,并且具有可扩展性,能够应对大规模数据集。TSNet与TensorFlow无缝集成,支持多任务学习场景,为复杂的机器学习项目提供了灵活的解决方案。
GBM-perf 是一个专注于比较各种开源GBM(Gradient Boosting Machine)实现性能的项目。它通过对不同数据集上的性能进行基准测试,详细分析各实现的速度和准确性,并提供开源和可重复的研究环境。该项目旨在帮助用户了解不同GBM实现的优劣,并为研究和教育提供支持。
BiLLa是一个开源的中英双语LLaMA模型,通过扩充中文词表和利用任务型数据进行训练,显著提升了中文理解和推理能力。在评测中,BiLLa在中英语言建模和推理任务上表现优异,不仅优于其他模型,还在解题和代码得分方面超越了ChatGLM-6B。
Luma AI是一款基于神经辐射场(NeRF)技术的3D生成模型,能够从2D图像快速重建高质量的3D场景。该模型利用深度学习技术,对物体的光照、纹理和结构进行精准建模,实现逼真的3D视觉效果。广泛应用于游戏开发、虚拟现实(VR)、电商产品展示等领域。
nano-llama31是基于nanoGPT风格的Llama 3.1版本,专注于简化的深度学习模型实现。该项目致力于在单GPU上高效运行大规模语言模型,优化依赖并提供基础训练功能,适用于研究和开发场景。
XAIreasoner是一个专为逻辑推理任务设计的开源框架,为开发者提供构建高精度推理系统的工具。它支持复杂问题求解与知识整合,优化决策支持。平台以推理能力与透明性为优势,开源社区支持完善,文档内容详实,非常适合需要在推理领域实现专业解决方案的开发团队。
OpenVINO是Intel推出的开源工具包,旨在优化深度学习模型的推理性能,特别适用于边缘设备和嵌入式系统。它通过提供高效的推理引擎,加速在CPU、GPU、FPGA和VPU等多种硬件平台上运行的AI应用,显著提高推理速度和资源利用效率。
XAIvoice是一个专为语音智能任务设计的开源框架,为开发者提供高效处理音频数据的工具。它支持语音识别与合成的优化,适用于多种交互场景。该框架通过模型提取音频特征,支持分布式计算加速学习,提供自然语音生成工具,加速语音任务响应速度,并内置高效音频服务接口。
YOLOE是一个实时高效的目标检测与分割模型,支持文本、视觉和无提示三种模式,具有卓越的零样本文本提示性能,训练成本降低3倍,推理速度快,YOLOE-v8-S在LVIS上的AP达到27.9,速度提升1.4倍。
emcee是一款专为AI设计的工具,旨在简化AI与外部API的集成过程。它支持OpenAPI规范,能够轻松连接各种Web应用,并提供多种认证方式,确保连接的安全性。通过命令行,用户可以快速部署和管理这些连接,极大地提高了AI调用外部工具和服务的效率。
Alfred是一个原型框架,旨在将大型预训练模型集成到程序化的弱监督管道中。它提供了一个直观且用户友好的界面,使用户能够快速创建和优化监督源,并与大型模型进行交互,从而增强弱监督学习的效果。
Coco AI App是一款集搜索、连接、协作于一体的个人AI助手应用,旨在解决跨平台数据检索和团队协作效率低下的问题。它通过统一搜索界面整合Google Workspace、Dropbox、GitHub等多平台数据,提供Gen-AI Chat功能,为企业量身定制的智能聊天助手,支持桌面和移动设备跨平台使用。
GPT-foolproof是一款浏览器插件,旨在通过伪装Web端访问来防止OpenAI对ChatGPT能力输出的限制。其核心价值在于通过多种技术手段,如浏览器指纹混淆、动态噪声注入Canvas指纹、实时环境参数模拟等,确保用户在使用ChatGPT时不会受到能力限制。此外,该插件还增强了隐私保护功能,如WebRTC地址过滤和IP伪装,避免用户隐私泄露。
该项目是基于TensorFlow框架实现的摄像头pix2pix图图转换工具,包含源代码和预训练模型。它支持实时摄像头输入,利用pix2pix模型进行图像转换,提供预训练模型以便快速使用,同时也支持自定义训练和模型优化。
HybridAGI是一个基于可编程大型语言模型(LLM)的自治Agent,它允许用户通过基于图的提示编程方法对其行为进行编程。该项目旨在使AI行为更加符合预期,适用于开发自治AI系统、实现可编程的AI行为、研究神经符号AGI以及创建符合特定需求的AI应用。
CocoIndex是一款开源的数据索引引擎,支持自定义转换逻辑和增量更新,专注于数据索引,特别擅长语义搜索和大规模数据索引。它能够自动处理和转换数据并建立索引,同时自动保持索引更新,减少手动维护的工作量。
Ferrules是一款用Rust编写的现代、快速文档解析器,旨在高效生成适合LLM的文档,解决传统解析器速度慢、依赖多的问题。它支持PDF布局提取与OCR,适配macOS和GPU加速,提供CLI和API接口,灵活易用。
Model Context Protocol (MCP) 是一种标准化协议,旨在通过统一的接口使AI助手能够访问和利用外部服务(如实时网络搜索),从而增强其功能。该协议设计具有可扩展性和可扩展性,并得到主要AI和搜索公司的支持。
Simplechat是一个专为AI模型设计的聊天界面,旨在通过持久化对话记忆,让每次聊天都能延续上次的深度。它支持多种AI提供商,如OpenAI和Anthropic,并集成了命令补全和剪贴板功能,以提升交互的便捷性和效率。
TerraTorch 是一个用于微调地理空间基础模型(GFMs)的 Python 工具包,提供了一个灵活的微调框架,并支持在不同抽象层次上进行交互。该工具包专为地理空间数据和模型设计,易于集成和使用。
Big-Math是一个大规模、高质量的数学数据集,专为增强语言模型在数学问题解决能力方面的强化学习而设计。该数据集覆盖了多种数学问题类型,并提供了多种信号生成工具,能够将选择题转换为开放式问题,从而扩展数据集的应用场景。