MedRAX是一款强大的AI辅助诊断工具,专为胸部X光检查设计。它集成了多种先进的医学图像分析工具,支持检测、分类、定位等多任务处理。通过2500个复杂医学问题的基准测试,验证了其卓越性能。MedRAX支持本地和云端部署,灵活适配不同需求,能够分析胸片细节及病变并标注位置,识别18种病理类型,生成诊断报告。此外,它还支持交互对话,理解复杂的医疗查询,并根据任务自动选择合适的工具和分析方法,进行多步医学推理。
这是一个优化版的结构相似性(SSIM)度量工具,专为高性能计算设计,能大幅提升图像质量评估的速度和效率。通过CUDA优化,减少了计算冗余,显著提升了性能,适用于深度学习中的图像质量优化任务。
这是一个基于《Attention is All You Need》论文的教学项目,使用 PyTorch 从头实现 Transformer 模型。项目详细介绍了从数据获取、预处理到模型训练和文本生成的全过程,支持在单个 GPU 上训练百万甚至十亿参数的模型。
DualPipe是一种创新的双向流水线并行算法,专为解决大规模AI模型训练中的效率问题而设计。它通过创新的调度策略,完全重叠前向和后向计算-通信阶段,同时减少流水线气泡,从而在相同设备配置下实现更高的训练吞吐量。该算法适用于跨多设备训练超大规模模型的场景,支持PyTorch 2.0及以上版本,无缝融入现代深度学习框架。
YOLOv9 是一种实时对象检测模型,超越了所有基于卷积和Transformer的模型。它引入了可编程梯度信息(PGI)和通用高效层聚合网络(GELAN)来提高准确性。该模型在基于 MS COCO 数据集的目标检测上验证了优异的性能,并且仅使用传统的卷积算子即可实现更好的参数利用率。YOLOv9 适用于从轻型到大型的各种模型,能够从头开始训练的模型比使用大数据集预训练的state-of-the-art模型获得更好的结果。
μKG是一个专门用于多源知识图谱嵌入和应用开发的库。它支持多种知识图谱嵌入算法,能够高效处理大规模知识图谱数据,并提供了丰富的API接口,便于开发者进行知识图谱的嵌入学习、融合、推理和预测,以及构建基于知识图谱的应用程序和可视化分析。
该项目是一个利用Diffbot和Neo4j技术构建的新闻知识图谱聊天机器人。它能够从海量新闻文章中提取关键信息,并将其转化为结构化的知识图谱。通过聊天界面,用户可以输入与新闻相关的问题,机器人能够快速检索知识图谱并给出精准答案。该项目结合了自然语言处理技术,提升了用户交互体验,适用于新闻阅读、信息检索等场景。
VideoRAG是一款专为处理和理解超长视频内容设计的RAG框架,能够在单个RTX 3090 GPU上处理数百小时的视频内容,并同时理解多个视频。它通过构建结构化的视频知识图谱,高效索引超长视频,支持多模态检索,精准匹配文本与视频语义,提供基于视频内容的智能问答。
大型语言扩散模型采用扩散技术,通过逐渐掩码输入部分文本并加噪,模型学习一次性预测被掩码内容以恢复原始文本。该技术不同于传统的逐步(自回归)方法,能够同时预测多个标记,解决传统语言模型无法逆向生成内容的问题,并在多个测试中表现优异,超过Llama-2 7B,与Llama-3 8B相当。
EMP-SSL是一种创新的自监督学习方法,通过增加每个图像实例中的图像块数量,显著提高了自监督学习的效率。该方法不依赖于常见的启发式技术,如分支之间的权重共享,并采用了特征归一化、输出量化和停止梯度等技术,使得训练时间减少了两个数量级,同时在多个数据集上实现了高准确率。
DeepSeek-RAG-Chatbot是一款完全免费、本地运行的高级RAG架构聊天机器人,无需联网即可实现强大的知识问答功能。它集成了DeepSeek、GraphRAG等技术,能够从PDF、DOCX和TXT文件中快速准确地检索信息,支持Docker和传统安装,部署灵活。
Chess Transformers是一个基于Transformer模型的国际象棋AI项目,旨在通过先进的深度学习技术,让机器能够掌握国际象棋的策略和技巧。该项目使用了超过1亿个棋局数据点进行训练,提供了4种不同架构的Transformer模型,以满足不同需求。用户可以通过该项目训练AI模型,分析棋局,优化策略,并与其他棋手进行在线对弈。
该项目全面解析了深度学习的发展史,从简单的前馈网络到最新的GPT-4o,涵盖了所有关键创新。项目不仅包含关键论文和笔记,还提供了重要的数学解释和直觉理解。此外,项目还提供了相关的PyTorch玩具实现,帮助用户更好地理解和实践深度学习技术。
NewsGPT是一个结合了大型语言模型(LLM)功能的新闻聚合器,旨在为用户提供来自可靠新闻来源的每日推荐和量身定制的新闻内容。该项目不仅支持用户与任何给定的新闻文章进行对话,还完全开源,展示了如何将RAG(Retrieval-Augmented Generation)技术与推荐系统结合的实际应用。
STORM是斯坦福大学开发的创新型AI写作工具,结合GPT-4和Bing搜索,能够自动深挖资料、生成大纲、模拟专家对话,并逐步完成整篇文章或结构化报告的撰写。它支持多模型协作、文献引用管理、本地知识库集成,并能一键导出PDF或LaTeX格式,广泛应用于学术研究、市场调研等领域,显著提升写作效率和数据准确性。
S3LLM,一种基于大型语言模型的框架,旨在提高对大规模科学软件的理解。该框架能够通过用户友好的界面,与用户进行交互式对话,同时分析源代码、代码元数据以及技术报告。
Breeze Copilot是HubSpot平台中的一款前沿AI工具,旨在增强生产力并简化各项业务流程。它为使用HubSpot的企业量身定制,作为虚拟助手,通过利用CRM数据提供个性化的见解和帮助,是营销、销售和客户服务团队的宝贵资产。
该项目是一份详细的教程,旨在帮助用户从零开始理解和实现Llama 3模型。教程基于naklecha/llama3-from-scratch的增强版本,进行了全面的改进和优化。通过清晰的目录结构、大量详细的代码注释、完整注解的矩阵维度变化、丰富的原理类说明和细节推导,用户可以轻松掌握Llama 3模型的实现原理和推理流程。此外,项目还提供了中英双语的代码文件,确保学习无障碍。
本项目实现了2023年的论文,利用大型语言模型探索数学与电气工程课程的内容和结构。
SurveyX 是一个基于大语言模型的开源工具,旨在自动化生成高质量学术论文和调研报告。用户只需提供论文标题或关键词,即可快速生成符合主题的学术内容。该工具支持多个领域,如计算机视觉、医学影像、网络安全等,并提供了30多个已生成的论文示例,帮助用户进行学术研究和文献调研。
一份教程,介绍如何从零开始实现一个稀疏 MoE(混合专家)模型,包括模型的基本组成和组件的代码实现。
ChatPilot是一款基于LangChain的智能对话助手,集成了Google搜索、文件网址对话(RAG)和代码解释器功能,复现了Kimi Chat的交互体验。支持OpenAI/Azure API,提供前后端分离的服务架构,前端使用Svelte,后端使用FastAPI。
LUCY是一款专注于语言理解和控制的AI项目,致力于打造早期阶段的智能交互系统。它能够通过情感控制和自然对话能力,使用户体验更加丰富和人性化,并支持高效的功能调用演示来完成复杂任务。
该项目为初学者提供了学习变分自编码器(VAE)、生成对抗网络(GAN)以及条件变分自编码器-生成对抗网络(CVAE-GAN)的最佳起点。项目包含自编码器(AE)、去噪自编码器(DAE)、变分自编码器(VAE)、生成对抗网络(GAN)、条件生成对抗网络(CGAN)、深度卷积生成对抗网络(DCGAN)、WGAN、WGAN-GP、VAE-GAN和CVAE-GAN,所有模型均基于PyTorch框架实现。
Open-Reasoner-Zero是一个开源的强化学习项目,旨在支持大规模推理模型的训练。该项目提供了一个高效的训练框架,能够在较少的训练步骤下实现卓越的性能,从而推动AI智能化应用的发展。
DeepSeek Profile Data 是一个深度剖析计算与通信重叠策略的工具,旨在分析 V3/R1 版本中计算与通信重叠的策略,并提供了详细的性能分析数据。它通过 PyTorch Profiler 采集数据,支持在浏览器中直接可视化,帮助用户优化训练和推理框架的性能。
Roboflow Notebooks 是一个全面的计算机视觉教程集合,涵盖了从基础架构到前沿模型的各类内容。项目提供了47个前沿模型教程,如YOLO11、SAM 2等,以及20种计算机视觉技能实战,如车辆速度估计、自动化标注。此外,项目每周更新视频教程,确保用户能够紧跟技术前沿。
Llama Cookbook是一个全面的指南,旨在帮助开发者轻松掌握LLaMA模型的推理、微调以及端到端应用的开发,适合从初学者到高级用户。
Mochii是一款智能AI助手,旨在通过导航、理解和与网页内容互动来提升网页浏览效率。用户可以通过安装Chrome扩展程序,在浏览网页时获得智能AI辅助。
基于Jax实现的等变图神经网络库,为复杂结构数据建模提供强大的工具。