NanoDL是一个基于Jax的库,专门用于从头设计和训练Transformer模型。它是一款低资源的定制开发工具,能够加速定制模型和大型语言模型(LLM)的开发。NanoDL提供了灵活的模型设计和训练配置,支持GPU/TPU加速,并适用于资源受限的环境。
OpenShape是一款多模态3D生成模型,能够根据文本、图像甚至草图快速生成3D模型。它结合了深度学习与几何理解能力,使得生成的3D模型更加精准、可控,适用于游戏开发、AR/VR应用、工业设计等领域。
LaVague 是一个开源的大型动作模型,旨在自动化 Selenium 浏览行为。它通过将自然语言指令转换为无缝的浏览器交互,重新定义了互联网浏览方式。该项目还支持使用自然语言指导爬虫操作,简化了网页数据提取和自动化任务。
west是一款基于大型语言模型(LLM)的语音转录系统,仅用300行代码实现。它支持多种LLM和语音编码器,如LLaMA、QWEN、Whisper等,具有高性能和高准确率的语音转录能力。通过模块化设计,west由LLM、语音编码器和可训练的投影器组成,仅需训练投影器,提高了训练效率。
Prompt越狱手册是一份系统且全面的指南,旨在帮助用户深入理解和掌握AI提示词的设计与越狱技巧。手册从思维模式角度剖析Prompt设计本质,提供全面的Prompt设计技巧与优化迭代方法,深入探讨Prompt注入、泄露与越狱技术,并结合Google、LangGPT等框架打造专属漏洞助手的实战案例。适合想深入了解AI交互提示工程的用户,帮助解决AI使用过程中的各种挑战。
World-Simulator是一个一站式多模态生成模型资源库,旨在帮助AI研究者探索2D、视频、3D和4D生成的前沿进展。它系统性整合了不同维度的生成技术,并提供丰富的资源,包括论文、代码和数据集,助力研究者快速上手。项目持续更新,紧跟学术界最新动态。
Lamini-Memory-Tuning是一项针对大型语言模型幻觉抑制的创新研究。通过重新思考泛化问题,该项目提出了基于记忆专家混合体的动态事实存储与检索机制,有效减少模型在处理大规模互联网数据时的幻觉现象。这一技术不仅提高了模型的准确性,还增强了其在复杂查询和对话系统中的表现。
Vox Box 是一个兼容 OpenAI API 的文本转语音和语音转文本服务器,支持 Whisper、FunASR、Bark 和 CosyVoice 等后端模型。它能够处理多种语言和应用场景,提供广泛的语音选项,满足多样化的语音合成需求,并能够无缝集成到现有的 AI 工作流程中。
CenterMask2是基于Detectron2框架的实时无锚点实例分割模型,是原始CenterMask的升级版,专注于高质量和高效的物体实例分割。它通过改进的实例分割精度和减少计算开销,适用于多种视觉任务,并支持自定义数据集的训练和推理。
OpenManus是一个开源项目,旨在让开发者能够轻松访问、修改和扩展Manus的功能。它无需邀请码,打破AI封闭生态,提供快速上手的体验。项目集成了多种成熟技术,包括大型语言模型(LLM)、AI Agent、计算机/浏览器使用、图像/视频理解、爬虫等,通过产品思维和工程集成,提供高效、智能的解决方案。
XAIvision是一个专为视觉AI任务设计的开源框架,为开发者提供高效构建视觉模型的工具。它支持图像处理与分析的优化,适用于从研究到部署的多种场景。
GLM是一个通用语言模型的开源平台,旨在为开发者提供构建多功能语言系统的工具。它支持从文本生成到对话任务的广泛应用,通过双向建模、训练优化、推理支持、多任务支持和灵活的接口,帮助开发者高效地实现各种语言处理需求。
该项目提供了与Python和语义技术(如RDF、OWL、推理等)相关项目的综合概览,涵盖了RDF相关工具、OWL实现、推理引擎及其Python集成,并重点介绍了语义网络领域的关键库和框架。
通过控制最后 标签结束的概率,来让模型超级努力思考,进而提升模型的能力。适用于大模型竞技场等场景,帮助模型在复杂任务中表现更出色。
Yi-1.5 是 Yi 的升级版本,在编程、数学、推理和指令执行能力上提供了更强大的性能。它能够更好地处理复杂任务,适用于需要高精度和高效率的场景。
Skywork-MoE是一个高性能的专家混合(MoE)模型,拥有1460亿参数、16个专家和220亿激活参数。该模型采用高效的专家混合架构,通过深度探讨训练技术优化模型表现,适用于多种自然语言处理任务。
lleaves是一个基于LLVM的编译器,专门为LightGBM梯度提升树模型设计。它通过优化预测过程,显著提升了预测速度,通常可以达到10倍以上的加速效果。该项目旨在为需要高效处理梯度提升树预测任务的用户提供强大的性能支持。
R1-V是一个开源视觉语言模型(VLM)项目,旨在通过强化学习和可验证奖励(RLVR)在极低成本(不到3美元)和短时间内(30分钟)实现超强泛化能力。该项目通过高效的训练方法和开源资源,显著提升了模型的性能,特别是在超出分布(OOD)测试中,2B模型在100个训练步骤后超越了72B模型的表现。
Sparse-VideoGen 是一个无需训练的视频生成加速框架,通过利用时空稀疏性来加速视频扩散模型,显著提升视频生成速度。该框架能够动态识别稀疏模式,适配多种视频生成模型,并支持 HunyuanVideo 和 CogVideoX v1.5,在单卡 H100 上表现出显著的加速效果。
MindNet是一个专为思维网络任务设计的开源框架,旨在为开发者提供构建智能关系模型的工具。它支持复杂思维结构的分析与生成,优化知识表示效率,适用于多种思维网络任务。
LightFM是一个基于矩阵分解的推荐算法模型,专为提供个性化推荐系统而设计。通过结合内容信息和用户行为数据,LightFM可以生成高度精准的推荐,适用于商品、电影、音乐等推荐系统。它支持隐式和显式反馈,实现了如BPR和WARP等流行的推荐算法,具有高效的计算能力和良好的扩展性,易于与Python数据科学栈集成。
MMR1是多模态推理领域的前沿项目,通过极少量数据实现顶尖性能。该项目仅使用6k公开数据进行训练,达到了开源7B多模态模型的SOTA性能,并且在6小时内完成高效训练,具有极高的性价比。此外,MMR1采用了数据平衡策略,能够覆盖多样化的数学问题类型。
TRELLIS是微软开源的一款3D生成模型,能够通过文本或图像提示生成具有复杂形状和纹理细节的3D作品。该模型适用于3D设计、建模和游戏开发等多种场景,采用CUDA技术,需要16GB内存的NVIDIA显卡支持。
Taranis是一个基于Faiss库构建的相似性搜索引擎,旨在从数亿个查询向量(图像或声音的通用数学和简化表示)中找到最相似的向量。在拥有足够内存的情况下,它可以扩展到处理数十亿个向量。
MobilityGen是基于NVIDIA Isaac Sim构建的工具集,旨在简化移动机器人的数据收集过程,支持算法训练和测试。它支持多种类型的机器人,提供丰富的真实世界数据,并支持多种数据收集方法。
K-Scale Sim Library是一个基于Isaac Gym的仿真库,专为Stompy机器人设计,提供了简单的接口用于实验运行。目前支持起立和行走任务,未来计划扩展更多任务和仿真环境,以支持更广泛的机器人实验需求。
SDV是一款专门用于生成高质量结构化数据的AI模型,能够合成逼真的表格数据,包括用户信息、交易记录、医疗数据等。它确保数据的隐私性和统计分布的真实性,同时提供数据增强、缺失值填充等功能,快速生成高质量合成数据,降低数据获取成本,并提升模型训练效果。
GPT AI Assistant 是一款基于 OpenAI API 和 LINE Messaging API 的智能助理工具,部署在 Vercel 上,具备强大的自然语言处理能力和高可用性。它支持多种语言和复杂对话场景,可无缝集成到 LINE 平台,提供即时通讯服务。项目易于扩展和自定义,适用于个人、企业、教育等多种场景。
FlowDec是一种专为48kHz采样的通用音频设计的神经网络全频带音频编解码器,支持7.5 kbps或4.5 kbps的低比特率传输。它结合了非对抗性编解码器训练与基于条件流匹配的随机后滤波器,提供高感知质量的音频处理,并支持低比特率下的全频带音频传输。
XFeat 是一个专注于轻量级图像匹配和加速特征提取的项目,旨在为计算机视觉应用提供高效的图像匹配解决方案。它通过优化特征提取算法,能够在实时处理中快速匹配图像,适用于需要高效率和低资源消耗的场景。