Whisper Web开源项目 – 浏览器中直接运行的语音识别项目

Whisper Web 是一个开源项目，允许用户在浏览器中运行基于机器学习的语音识别，无需后端服务器。它利用 WebGPU 技术实现加速，用户可以轻松进行语音转文本，并支持将识别结果导出为 TXT 和 JSON 文件格式，完全开箱即用。
Whisper Web的特点:
1. 基于 ML 的语音识别
2. 通过 WebGPU 加速运行
3. 无需后端服务器
4. 支持导出 TXT 和 JSON 文件格式

Whisper Web的功能:
1. 在浏览器中直接运行 Whisper 进行语音转文本
2. 导出识别到的文本为 TXT 格式
3. 导出识别到的文本为 JSON 格式

相关导航

VOMO官网 – 将声音转化为有序笔记的AI工具

VOMO是一个AI驱动的工具，允许用户将语音转换为有序的书面笔记，并轻松将其转换为幻灯片、表格、会议记录等多种格式。只需对着应用程序或网页界面说话，AI技术即可实时转录您的语音，帮助用户提高工作效率和创造力，减少输入时间。

Whisper for Large Audio官网 – 简易音频转录解决方案

Whisper for Large Audio 是一个简单的解决方案，旨在帮助用户处理大音频文件的转录问题。用户可以直接在浏览器中将任意大型音频文件分割，并利用 OpenAI 的 Whisper 对分割后的部分进行转录，只需一键即可获得完整的转录文本，消除了文件大小限制和手动操作的繁琐。

AccurateScribe.ai官网 – 强大的音频转文本工具

AccurateScribe.ai 是一款免费的强大音频转文本工具，利用 OpenAI 的 Whisper 技术，能够高精度地将多种语言的音频和视频转换为文本。

vue-pure-admin开源项目 – 基于Vue3的开源中后台管理系统

vue-pure-admin 是一款开源免费且开箱即用的中后台管理系统模版，采用最新的 Vue3、Vite、Element-Plus、TypeScript、Pinia、Tailwindcss 等技术开发。它完全遵循 ECMAScript 模块（ESM）规范，提供精简版本，适合实际项目开发，支持国际化，打包后体积小，性能优异。项目还提供了丰富的文档、视频教程和多种版本（如 Tauri、Electron 等），帮助开发者快速上手和定制开发。

Music Composer开源项目 – Python音乐创作助手

Music Composer 是一个基于 Python 的应用程序，旨在帮助用户创建和操作音乐作品。它提供了多种功能，使用户能够轻松生成旋律、调度音乐事件，并将作品导出为 MIDI 文件。

lmms-finetune开源项目 – 多模态大模型微调工具

lmms-finetune 是一个多模态大模型微调工具，提供了一个统一的代码库，简化了微调流程，支持微调多种LLM。它支持完整模型微调和LoRA微调两种方式，并且具有良好的扩展性，能够满足不同场景下的需求。

RefAug开源项目 – 提升模型推理能力的合成数据增强方法

RefAug是一种用于反思和思维链的合成数据增强方法，旨在通过将问题反思和思考嵌入到以数学为重点的训练数据中，提高模型的推理能力。该方法通过生成替代推理和后续推理，将反思整合到训练示例中，从而增强模型在数学任务和编码任务中的表现。

S.A.T.U.R.D.A.Y开源项目 – 实时音频处理与AI工具箱

S.A.T.U.R.D.A.Y是一个用于处理WebRTC、音频和AI的工具箱，基于Pion、whisper.cpp和Coqui TTS构建。

LangGraph 101开源项目 – 掌握LangGraph框架的教程

LangGraph 101 是由 LangChain 团队设计的免费教程，旨在帮助用户掌握 LangGraph 框架，用于构建精确可控的 AI 智能体和多智能体应用。通过一系列笔记本教程，涵盖从基础到高级的 LangGraph 知识，并提供开源案例代码，便于快速上手实践。教程还包括环境搭建指南、集成 Azure OpenAI 方案，以及流式处理、断点和状态编辑等人机交互功能。

贪吃蛇游戏开源项目 – 极小巧的经典贪吃蛇游戏

这个贪吃蛇游戏的体积仅为56字节，比一条微博还小，极具趣味性与挑战性。

unitree_rl_gym开源项目 – Unitree机器人强化学习模拟平台

unitree_rl_gym是一个专为Unitree机器人设计的强化学习模拟训练平台。它支持多种Unitree机器人模型，提供丰富的训练和演示脚本，旨在帮助研究人员和开发者进行机器人学习和研究。该平台为强化学习算法提供了一个高度可配置的环境，使得用户能够轻松地进行模型训练、测试和结果展示。

LLaMA-VID开源项目 – 处理长时间视频的多模态大模型

LLaMA-VID 是一种开源的多模态大模型，专门设计用于处理长时间的视频内容，如电影。它通过使用视觉语言模型（Vision Language Models, VLMs）来结合计算机视觉和自然语言处理，从而理解和生成与视频内容相关的文本。LLaMA-VID 通过使用两个标记（Token）来表示每一帧图像或视频：一个上下文标记（Context Token）用于编码整个图像或视频中最相关或最重要的部分，另一个内容标记（Content Token）用于捕捉每一帧图像中具体存在或发生过的事物。这种方法有效地减少了长时间视频中过多无关紧要的信息，并保留了最核心的有意义信息。LLaMA-VID 能够处理单图片、短视频和长视频，并在多个视频榜单上实现了 SOTA（State of the Art）表现。

PDF.js开源项目 – 基于HTML5的PDF查看器

PDF.js是由Mozilla支持的社区驱动开源项目，旨在创建一个通用的、基于Web标准的平台，用于解析和渲染PDF文件。它可以在任何现代浏览器上运行，提供了跨平台兼容性、开源免费、功能丰富和易于集成的特点。

PyTorch Geometric开源项目 – PyTorch的图神经网络库

PyTorch Geometric (PyG) 是一个基于PyTorch的图神经网络（GNN）库，旨在简化图结构数据的深度学习任务。它提供了丰富的GNN模型，支持大规模图和异构图，广泛应用于化学、生物信息学、自然语言处理和社交网络分析等领域。PyG具有易于使用的API，支持多GPU、`torch.compile`和`DataPipe`，并提供了大量常见基准数据集和有用的转换工具。

NeuralKG开源项目 – 基于PyTorch Lightning的知识图谱表示学习框架

NeuralKG是一个基于PyTorch Lightning开发的知识图谱表示学习框架，集成了多种知识图谱表示学习模型。它支持传统知识图谱表示学习模型、基于图神经网络的知识图谱表示学习模型以及基于规则的知识图谱表示学习模型。NeuralKG采用模块化设计，便于个性化和维护，能够高效、可扩展地进行知识图谱表示学习任务。