Vlogger是一个通用的人工智能系统,专门用于生成用户描述的一分钟级视频博客(vlog)。该系统利用大型语言模型(LLM)作为导演,将vlog的长视频生成任务分解为四个关键阶段,从而突破现有视频生成方法的瓶颈,提升生成效率和质量。
VideoPainter是由腾讯ARC团队推出的支持任意长度视频修复与编辑的工具。它突破了传统技术的限制,支持通过文字指令实现视频编辑,可以添加、删除、更改、替换视频中的对象。该工具采用即插即用的双分支框架,一个分支通过背景上下文编码器处理背景信息,确保背景自然;另一个分支专注生成前景物体,实现背景与前景的协调统一。此外,VideoPainter还提供了超过39万条带精确分割掩码的视频数据,助力大规模训练与评估。
kan-gpt是一个结合Kolmogorov-Arnold Networks(KAN)特性的GPT模型,使用PyTorch框架实现。该项目在Tiny Shakespeare数据集上进行了训练和测试,表现优于传统的MLP-GPT模型。作为一个开源项目,kan-gpt不仅便于社区贡献和进一步研究,还为自然语言处理任务提供了新的解决方案。
该项目是一个关于大型语言模型和基础模型在时态数据(时间序列、时空和事件数据)以及AIOps领域应用的资源列表。它提供了全面的资源,包括论文、代码、数据集等,系统地总结了该领域的最新进展,为研究者和开发者提供了可靠的参考。
MM-EUREKA是一个探索视觉‘顿悟时刻’的多模态强化学习项目,首次将基于规则的强化学习应用于多模态推理,实现文本和视觉信息的高效融合。该项目无需监督微调,通过规则化训练显著提升模型推理能力,并开源完整训练流程,包括代码、模型和数据,助力研究者快速上手。
unitree_rl_gym是一个专为Unitree机器人设计的强化学习模拟训练平台。它支持多种Unitree机器人模型,提供丰富的训练和演示脚本,旨在帮助研究人员和开发者进行机器人学习和研究。该平台为强化学习算法提供了一个高度可配置的环境,使得用户能够轻松地进行模型训练、测试和结果展示。
Monotty Desktopio 是一个在终端内运行的基于文本的桌面环境,为用户提供了一个完整的桌面体验,同时保持了轻量级和高效的特点。它支持多种桌面应用程序,并且界面高度可定制化,非常适合在远程服务器或现有的终端工作流中使用。
mvvM-Sidekick是一个专为支持多种XAML平台设计的MVVM框架,旨在简化MVVM模式的实现,提升开发效率,并增强代码的可维护性和可读性。它适用于需要在多种XAML平台上进行高效开发的项目,帮助开发者更轻松地构建和维护复杂的应用程序。
BiLLa是一个开源的中英双语LLaMA模型,通过扩充中文词表和利用任务型数据进行训练,显著提升了中文理解和推理能力。在评测中,BiLLa在中英语言建模和推理任务上表现优异,不仅优于其他模型,还在解题和代码得分方面超越了ChatGLM-6B。
TextReducer 是一款专为文本摘要生成和信息提取设计的工具。它支持多种文本格式,能够高效处理大规模文本,并提供可定制的摘要长度,适用于各种场景下的文本处理需求。
CocoIndex是一款开源的数据索引引擎,支持自定义转换逻辑和增量更新,专注于数据索引,特别擅长语义搜索和大规模数据索引。它能够自动处理和转换数据并建立索引,同时自动保持索引更新,减少手动维护的工作量。
ASP.NET Core 是一个跨平台、高性能、开源的框架,用于构建现代、基于云和互联网连接的应用程序。它支持在Windows、macOS和Linux上运行,并专为高吞吐量和低延迟设计。该框架统一了Web应用、API和实时应用的开发,内置依赖注入、灵活的中间件管道、Razor Pages、Blazor全栈开发、SignalR实时功能、安全认证与授权支持,以及多种托管方式(如IIS、Kestrel和Docker)。
Simplechat是一个专为AI模型设计的聊天界面,旨在通过持久化对话记忆,让每次聊天都能延续上次的深度。它支持多种AI提供商,如OpenAI和Anthropic,并集成了命令补全和剪贴板功能,以提升交互的便捷性和效率。
rasa NLU 是一个用于意图分类和实体提取的工具,旨在帮助开发者构建智能聊天机器人和虚拟助手。它支持多种语言,能够处理和理解自然语言输入,并从非结构化文本中提取结构化信息。rasa NLU 提供了可定制的处理管道,并与多种机器学习框架集成,拥有详细的文档和强大的社区支持。
dive 是一款用于分析 Docker 镜像每一层空间使用情况的工具。它提供了可视化的镜像层信息,支持快速浏览镜像内容,帮助用户优化 Docker 镜像大小,并提供镜像层的详细元数据。通过 dive,用户可以深入了解镜像的结构,从而更有效地管理和优化 Docker 镜像。
RefAug是一种用于反思和思维链的合成数据增强方法,旨在通过将问题反思和思考嵌入到以数学为重点的训练数据中,提高模型的推理能力。该方法通过生成替代推理和后续推理,将反思整合到训练示例中,从而增强模型在数学任务和编码任务中的表现。
FastFeedParser是一个专为Python设计的高性能feed解析器,支持RSS、Atom和RDF格式。它通过采用lxml库实现高效的XML解析,具备智能内存管理功能,能够快速解析并处理feed内容。此外,它还支持媒体内容和附件的解析,并自动进行日期解析和UTC标准化,确保数据的准确性和一致性。
OpenNLP是一个Apache开源项目,提供了一个用于自然语言处理的机器学习库,支持多种文本分析任务。它通过高效的算法和可扩展的模型,帮助开发者处理和分析大规模文本数据。
OpenCV是一个开源的计算机视觉和机器学习软件库,提供了丰富的图像处理和计算机视觉算法。它支持多种编程语言和跨平台运行,适用于各类AI应用,包括图像处理、物体识别、视频分析等。OpenCV还针对不同硬件架构进行了优化,并支持深度学习模块,可加速矩阵乘法等操作。
mast3r-slam是一个基于Rerun的MASt3R-SLAM实现,旨在简化实时密集SLAM与3D重建的过程。通过使用Rerun进行可视化,用户可以直观地查看SLAM结果。项目通过Pixi简化了安装过程,用户可以在10分钟内完成复杂依赖的安装。此外,mast3r-slam支持NVIDIA GPU加速,显著提升了性能。
Vision-R1是首个探索如何有效利用强化学习(RL)提升多模态大语言模型(MLLM)推理能力的项目。通过冷启动初始化和RL训练,该项目显著提升了模型的推理能力,并仅用7B参数实现了与70B+参数模型相当的性能。此外,Vision-R1还提供了完整的推理流程和代码,助力研究者快速上手。
WingetUI 旨在为 Windows 10 和 Windows 11 上常见的 CLI 包管理器(如 Winget、Scoop、Chocolatey、Pip、Npm、.NET Tool 和 PowerShell 库)提供直观的图形用户界面,简化软件包的管理操作。
Streamyfin是一款基于Expo构建的简洁易用的Jellyfin移动客户端应用,提供了许多其他Jellyfin客户端所没有的功能,让媒体流媒体体验更加完善和便捷。它支持跳过片头/片尾、视频预览缩略图、后台音频播放、实验性媒体下载和投屏功能,还集成了媒体请求功能,支持在应用内直接请求新内容。
captcha-break是一个基于opencv2、tesseract-ocr和机器学习算法的验证码破解工具。它通过图像处理和光学字符识别技术,结合机器学习算法提高准确性,旨在破解各种类型的验证码挑战。该项目是开源的,并在GitHub上提供,鼓励社区贡献。
cog-consistent-character是一个基于AI的开源模型,能够在保持角色一致性的同时,增加多样性。它结合了InstantID、IPAdapter、Controlnet和FaceDetailer等多种技术,全部由SDXL Lightning驱动。该工具支持在ComfyUI中直接使用工作流,简化角色图像的创作过程,适用于角色设计、动画制作、游戏开发等多种场景。
Aperture 是一个专门用于可视化 Stable Diffusion 中注意力层的工具,特别设计用于可视化 UNet 中每个词在每一层的注意力分布。它支持 Stable Diffusion 2.1 和 Flux Dev 模型,并提供了完整的前端和后端代码,便于用户进行定制和进一步开发。
rasa-nlu-benchmark 是一个专门用于Rasa NLU模型性能评估的工具集。它提供了多种基准数据集,并包含与这些数据集对应的基准测试,支持对Rasa NLU模型的准确性和效率进行全面评估。该项目旨在帮助开发者和研究人员通过标准化的数据集和测试流程,对比和优化不同模型的性能。
《动手学大模型》系列编程实践教程,由上海交通大学《人工智能安全技术》课程讲义拓展而来,旨在帮助开发者深入理解和实践大模型的相关技术。通过简单实践,帮助同学快速入门大模型,更好地开展课程设计或学术研究。
LivePortrait是一个利用AI技术实时控制人脸表情的项目,特别适合用于制作鬼畜视频或个人娱乐。该项目支持高度自定义的面部表情调整,易于集成和使用,广泛应用于视频编辑和娱乐领域。
WingetUI 是一个为 Windows 常用的命令行包管理工具设计的用户界面,支持 Winget、Scoop、Pip、NPM、.NET Tool 等多种包管理器。它提供了一个友好且美观的界面,使用户能够轻松地下载、安装、更新和卸载软件,同时支持管理日常应用,如浏览器和 PDF 阅读器等。