Llama3-S是一个扩展文本基础的大型语言模型,具备原生的‘听力’能力。通过早期融合模型训练,Llama3-S实现了声音识别与文本理解的有效结合,适用于多种语言处理任务。
PaLI-3是一个相对更小、更快且更强大的视觉语言模型,其性能表现优于大小为其10倍的类似模型,专注于多模态任务的高效处理。
基于 baichuan-7B 进行多任务有监督微调的开源多模态大语言模型,建立在 Pleisto 的以数据为中心(Data-centric AI)的工作上。羽人在多轮对话、开放域问答、角色扮演、文本生成、文本理解、图片理解等多个任务上均拥有优异的表现。
BatGPT是由上海交通大学与武汉大学联合自然语言处理团队设计的系列大型语言模型,具有150亿参数,通过高质量的中英文语料进行双向自回归预训练,并经过指令微调与强化对齐的学习,展现出优秀的指令遵循能力、多轮对话能力和推理能力。
ChatGPT是目前使用最广泛的两个语言大模型之一,具备先进的自然语言处理能力,能够进行对话生成、文本理解等多种任务。研究人员观察到其模型性能随着时间的推移而变差,因此持续监测模型性能变化显得尤为重要。
一个中文大语言模型项目,旨在提供强大的自然语言处理能力,支持多种应用场景。
Infini-Megrez是全球首个端侧全模态理解模型,能够同时处理图像、音频和文本数据,具备强大的多模态理解能力。该模型以其高精度、高速度和简单易用性为核心价值,支持场景理解、OCR、中英文语音输入及多轮对话等功能,适用于多种复杂场景下的数据理解和分析。
transformers_zamba2是一个为自然语言处理打造的先进工具库,提供数千个预训练模型,支持文本分类、问答、翻译等多种语言任务,让NLP技术更易用。该库不仅可以处理文本数据,还支持视觉和音频模态,适用于多种应用场景。
GPT-4o click to start是一个免费的GPT-4O驱动产品,提供与GPT-4相同水平的智能,配备强大的语音服务API,能够进行实时文本、视觉和音频处理。
FastSAM是一个基于CNN的图像分割项目,具有与Facebook提出的SAM相似的性能,但在运行速度上提高了50倍,适用于各种图像分割任务,易于集成和使用。
Merlin是一种由和支持的新型MLLM,展示了增强的视觉理解、未来推理和多图像输入分析能力。研究人员提议将未来建模引入多模态LLM(MLLMs)中,以提高对基本原则和主体意图的理解。他们利用了现有学习范式启发的预见性预训练(FPT)和预见性指令调优(FIT)技术。
在多个粒度上分割和识别物体的通用图像分割模型。团队在SA-1B数据集、通用分割数据集(COCO等)和部件分割数据集(PASCAL Part等)上联合训练模型的首次尝试,并系统研究了在SA-1B上定义的交互分割任务和其他分割任务(如全景分割和部件分割)上多任务联合训练的相互促进作用。
Chinese LLaVA是一个支持中英文双语的开源多模态模型,能够进行视觉与文本的结合对话,具备高效的理解能力和灵活的应用场景,适合商用开发。
Whisper API是一个强大的AI驱动的转录工具,利用OpenAI的Whisper模型,为音频文件提供准确可靠的转录服务。用户可以轻松地将Whisper的转录功能集成到他们的应用、服务或工作流程中。
RT-DETR(Real-time DEtection Transformer)是一种在速度和准确率方面均超越YOLO系列的先进物体检测模型,旨在提升计算机视觉任务的效率和效果。该模型采用高效的混合编码器和不确定性最小查询选择方法,支持灵活的速度调整和多尺度特征处理,在COCO数据集上表现出色。
iZotope RX是一款为音乐制作、后期制作和内容创作专业人士设计的音频修复和增强软件,提供全面的选项来处理从小型音频问题到复杂的声音恢复任务,利用先进的机器学习技术精准而轻松地解决噪声、点击声和不必要的混响等常见音频问题。
Imagica是一个创新工具,旨在简化与计算机的交互,尤其是在人工智能领域。用户可以在几分钟内构建无代码的AI应用程序,使得节省时间、降低成本和提高效率成为可能,无需深入编程知识。
WeCLIP是一个强大的语义分割模型,基于冻结的CLIP结构,致力于弱监督学习,通过有效的特征提取提升图像分割的性能,适用于各种计算机视觉任务。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型