Phi-3.5-mini-instruct (128k) 是微软于2024年8月发布的轻量级语言模型,属于Phi-3系列。该模型专注于指令生成任务,具有3.8亿参数,支持128K超长上下文,训练数据达3.4T tokens。采用密集解码器-only Transformer架构,在512张H100-80G GPU上训练10天完成。支持22种语言,在推理任务上表现接近GPT-4水平,特别适合资源受限或延迟敏感的应用场景,如移动端部署和边缘计算。
Motia 是一个专为软件工程师设计的代码优先AI代理框架,旨在简化事件驱动工作流程的开发。它通过零基础设施设置、一键部署和多语言支持(如JavaScript、TypeScript、Python、Ruby),让开发者专注于业务逻辑而非DevOps。提供实时可视化执行和测试功能,适用于构建AI驱动的工作流程、自动化后端和数据处理等应用。
LLM Sandbox 是一个轻量级且便携的沙盒环境,旨在使用 Docker 容器以安全、隔离的方式运行大型语言模型生成的代码。该项目提供易于使用的接口,用于设置、管理和执行受控 Docker 环境中的代码,简化运行 LLM 生成代码的过程。支持多种编程语言,并确保主机系统的安全。
SoftMatcha是一个专注于亿级语料库的软模式匹配工具,结合语义和高效索引技术,能够快速找到相似模式。它特别适合处理自然语言中的拼写变化和同义替换,适用于英语、日语和拉丁语等语言。项目提供扫描和索引两种搜索方式,支持多种嵌入式后端如gensim和transformers,增加了灵活性。
Roo-Code 是一个开源的 AI 驱动 VS Code 插件,旨在提升编程效率。它支持多种 AI 模型,如 OpenAI 和 Anthropic Claude,并允许用户创建自定义模式以适应不同编程需求。插件通过代码行动集成,提供快速修复和重构选项,直接在编辑器中操作。Roo-Code 提供代码生成、调试、文档编写等功能,并支持跨文件操作和自动化浏览器动作。
Falcon 2 11B 是由阿联酋技术创新研究所(TII)开发的大型语言模型,拥有110亿参数,经过5.5万亿token的训练。该模型在语言理解和生成方面表现出色,支持多种语言,适合研究和商业用途。其性能优于Meta的Llama 3 8B,与Google的Gemma 7B相当,尤其在Hugging Face的评估工具中表现领先。
Google/gemma-3-27b-it 是 Google 开发的一个轻量级、尖端开放权重模型,基于与 Gemini 模型相同的研究和技术构建。它能够处理文本和图像输入,生成文本输出,支持超过140种语言,具有128,000个令牌的上下文窗口,参数规模达27亿。该模型特别适合问答、文本摘要和推理任务,并可在资源有限的环境中部署,如笔记本电脑、台式机或云基础设施。
Llama-3.3-70B-Instruct 是由 Meta 开发的大型语言模型,拥有 70 亿参数,性能与更大模型相当,但成本显著降低。该模型在多语言对话、推理和行业基准测试中表现优异,尤其在 MMLU 测试中超越 Google Gemini 1.5 Pro、OpenAI GPT-4o 和 Amazon Nova Pro。Meta 计划在路易斯安那州建设 100 亿美元的 AI 数据中心,支持未来 Llama 模型的训练。
Mixtral-8x7B-Instruct-v0.1 是由 Mistral AI 开发的开源指令跟随模型,基于 Mixtral-8x7B-v0.1 架构,采用混合专家(MoE)设计,包含 8 个 7B 参数的专家,总参数量约为 46.7B。该模型支持 32k 令牌的上下文长度,能够处理英语、法语、意大利语、德语和西班牙语。在 MT-Bench 基准测试中得分 8.3,表现出色,特别适合需要指令跟随的应用场景。模型通过 Hugging Face transformers 库加载,支持 GPU 加速,生成文本的能力强大且灵活。
Code Llama 70B 是 Meta 公司开发的一个开源编程 AI 模型,拥有 700 亿参数,模型大小为 131 GB。它在 1 万亿个 token 上训练,支持多种编程语言,包括 Python、C++、Java、PHP、Typescript、C# 和 Bash 等。该模型在推理、编码、熟练度和知识测试等外部基准测试中超越了其他开源语言模型,展现了强大的编码功能。
BigCode 是一个由 Hugging Face 和 ServiceNow 联合领导的开源科学合作项目,专注于负责任地开发和使用大型语言模型(LLM)进行代码相关应用。该项目提供了多种模型和数据集,如 StarCoder2 系列模型和 The Stack v2 数据集,涵盖超过 600 种编程语言,支持代码生成、代码补全、文本摘要等功能。BigCode 的目标是通过开源和开放科学推进人工智能的发展,特别是在代码生成和理解领域。
这是一个专门为Manus AI平台创建的指南仓库,提供了全面的使用文档,涵盖Manus的基本情况、使用指南、应用场景、与其他AI智能体的对比以及Replay功能的解析。文档支持英文和中文,适合新手使用。
Walle-Web是一款免费开源的DevOps平台,专注于代码自动化发布和管理。它支持多语言代码发布、回滚,集成Git作为版本控制,并提供多用户、多项目灵活配置。Walle-Web具有灰度发布功能、实时部署终端、丰富的通知机制以及代码检测与快速回滚等特点。
OpenAI.fm 是由 OpenAI 开发的交互式平台,专注于文本转语音功能,适合开发者和用户快速测试和体验。平台支持中文,生成速度快,用户可选择音色和气氛,生成自然语音。提供多种语音风格和多语言支持,生成后自动删除文本和音频,确保用户隐私。开发者可通过 API 将功能集成到自己的应用中。
LibreTranslate是一个免费且开源的机器翻译API,完全自托管。它不依赖于Google或Azure等专有服务,而是使用开源的Argos Translate库作为翻译引擎。支持多种语言的互译,提供RESTful API,易于集成到现有系统中。适合对隐私或数据安全要求高的场景,如企业内部敏感文档的离线翻译,或开发隐私优先的应用程序。
Shorty是一款AI驱动的短视频广告制作工具,旨在帮助用户快速创建引人入胜的短视频广告。特别适合电商品牌、Shopify商店、亚马逊卖家和内容创作者,通过AI虚拟人物和动态模板,将产品视觉转化为专业、吸引注意力的用户生成内容(UGC)广告。应用支持多种语言,包括中文,方便全球用户使用。
Wispr Flow 是一款跨平台的 AI 语音工具,专注于高精度语音转文字和自动格式优化。它旨在通过无缝的语音输入功能,显著提升用户的工作效率,特别是在写作和沟通场景中。支持 Windows 和 Mac 系统,适用于微信、Word 等多种应用场景,帮助用户快速生成无错别字、排版工整的内容。
该项目是 OpenAI 平台上 Audio API 的一部分,基于 GPT-4o mini TTS 模型,旨在将文本转化为自然流畅的语音。它支持多种语言和自定义语音选项,适用于教育和客服场景,并需向用户披露语音为 AI 生成。
OpenAI的语音转文本项目基于Whisper模型,旨在将音频转化为文本,特别适合处理多种语言和方言。它支持多种音频格式,文件上传限制为25 MB,输出格式包括JSON和文本。项目功能强大,适用于会议记录、语音笔记和多语言翻译等场景。
通义是由阿里云开发的大型语言模型,支持多轮对话、内容创作、逻辑推理、多模态理解和多语言支持。它于2023年9月13日公开上线,提供提示词模板、联网搜索功能,且模型开源,用户可自由定制和部署。通义旨在成为用户的个人AI助手,辅助工作、学习和生活,覆盖广泛的应用场景。
Pixtral-12B-2409 是 Mistral AI 开发的多模态模型,拥有12亿参数的解码器和4亿参数的视觉编码器,能够同时处理文本和图像。它支持128k长上下文,具备图像理解能力如OCR和视觉问答,支持中/英/日/韩等24种语言,满足全球化需求。该模型在多模态任务中表现优异,尤其在文档问答(DocVQA)和视觉问答(VQAv2)上领先,且可以在单张RTX 4090上运行,许可证为Apache 2.0。
Chikka.ai 是一个基于AI语音访谈技术的平台,允许用户在5分钟内快速构建拟人化对话代理。通过自然聊天,它高效收集用户反馈或员工创意,解决传统调研耗时长、互动生硬的问题。其核心价值是将非结构化对话转化为可落地的洞察,特别适用于直播电商、私域流量等场景,尤其对老年人或低触网人群的反馈收集具有亲和力与渗透性。
Cuckoo 是一个为全球销售、市场和支持团队设计的 AI 实时翻译工具,主要用于 Zoom 会议,帮助克服语言障碍。它支持超过 20 种语言,集成了 Zoom、Google Meet、Slack 和 Microsoft Teams,可在移动设备或桌面设备上使用。Cuckoo 通过关键词和文件学习会议上下文,适合处理技术术语,增强客户信任和转化率。
白描图片转 Excel 是白描应用的一个网页功能,专注于将表格图片通过OCR技术转换为Excel文件。白描是一个强大的OCR工具,支持图片转文字、电子表格文字识别、PDF转文字等功能。该功能简单易用,用户只需上传表格图片即可完成转换,适用于需要快速提取表格数据的场景。
INFP 是由 ByteDance 开发的音频驱动的双边互动视频生成框架,主要用于实时生成自然灵活的互动视频。它能够根据音频内容自动切换角色,生成与音频高度一致的面部表情和头部动作。该框架经过深度优化,运行速度超过 40 FPS,支持实时视频生成,适用于即时通讯、视频会议等实时场景。此外,它还支持多语言音频生成、唱歌模式,以及侧面头像和非人类形象的生成。
Mirage 是 Captions 公司开发的 AI 模型,专注于生成用户生成内容(UGC)风格的广告视频。它能够创建具有自然表情和肢体动作的原创角色,无需依赖传统拍摄或预录制素材。Mirage 支持从提示生成完整视频,用户可定制角色的外貌、声音、语气和背景,并支持 29 种以上语言,特别适合全球营销和本地化广告。生成的内容拥有完整版权,适用于商业和个人用途。
DeepL for Chrome 是一款基于 DeepL 技术的浏览器扩展,提供实时翻译和智能写作建议,帮助用户在浏览网页或撰写内容时进行高效的多语言沟通。它支持实时翻译选定的文本,并提供 DeepL Write 功能,优化电子邮件、评论等内容的表达,支持风格和语气调整。
Zed 是一款下一代 AI 代码编辑器,专注于人类与 AI 的高性能协作,旨在通过无缝的人工智能协作提升软件开发效率。它支持 macOS 和 Linux,Windows 版本即将推出。Zed 提供了多种功能,包括 AI 辅助编程、实时协作、多语言支持、原生 Git 支持等,适合个人和团队使用。
Grok 是一款由 xAI 开发的生成式 AI 聊天机器人,xAI 由 Elon Musk 创立。它旨在提供未经过滤、幽默的回应,并具备高级的推理、编码和视觉处理能力。Grok 可通过 X 平台访问,提供实时网络搜索和图像生成等功能。最新版本 Grok 3 于 2025 年 2 月发布,免费向所有人开放,但免费用户有使用限制。
FunASR 是一个旨在连接学术研究与工业应用的语音识别工具包。它支持工业级语音识别模型的训练与微调,帮助研究者和开发者更方便地进行语音识别模型的研究与生产,推动语音识别生态的发展。FunASR 提供了丰富的预训练模型和便捷的脚本与教程,支持推理和微调,涵盖语音识别、语音活动检测、标点恢复、语言模型、说话人验证、说话人分离等多种功能。