GoogleGemini.co是基于Google Gemini Pro API实现的免费文本和图像交互工具,用户无需设置服务器或调用API接口,便可方便地使用。Google Gemini是DeepMind开发的最大和最强大的AI模型,能够处理文本、音频、图像等多种数据类型,并提供Ultra、Pro和Nano三个版本。
RWKV是一种新型模型,它不需要注意力机制,而是将递归神经网络和Transformers的优点结合在一起。
这是一个具有370亿参数的生成式多模态模型,使用统一的自回归目标在大规模多模态序列上进行训练。
Meta-Transformer是一个用于多模态学习的统一框架,能够处理各种模态如自然语言、2D图像、3D点云、音频、视频、时间序列和表格数据。它采用冻结的编码器进行多模态感知,并且可以在没有配对的多模态训练数据的情况下进行训练,同时可学习的数据预处理器能够处理每个输入模态,生成共享的嵌入表示。
Perceiver IO是DeepMind的Perceiver IO的非官方PyTorch实现,支持分布式训练,具有通用输入处理能力,适用于图像、文本和音频等多种任务,设计高效,能够处理大规模数据。
Macaw-LLM是一项探索性的努力,它通过无缝地结合图像、视频、音频和文本数据,开创了多模态语言建模。
基于Triton语言实现的Flash Attention, 采用OpenAI团队发布的Fused Attention代码,优化了注意力机制,适用于大规模数据处理,支持快速训练和推理,兼容多种深度学习框架。
I IMAGINE是针对特定领域的AI聊天机器人,旨在帮助企业主高效管理业务的各个方面。与ChatGPT相比,每个领域的聊天机器人拥有独特的知识库,并采用先进的提示工程技术。通过发挥想象力和AI的力量,用户可以轻松管理个人和工作生活的所有方面,生成文本、图像和编程代码,进行关于健康、职业建议等主题的专家聊天,利用语音转文本功能将会议内容转换为文本。
用于评估视觉语言模型在多样化基准测试中的鲁棒性的Python库,提供60种VLM模型和40种评估基准的全面工具和脚本,支持大规模模型和大规模训练样本,简化视觉语言模型的评估过程
Efficient Large LM Trainer 是一款专为大规模语言模型设计的高效训练工具,旨在通过优化的算法和资源管理,提升训练速度并减少内存占用,支持多种硬件设备,便于用户集成和使用。
数据中心语言模型研究精选:汇总了数据为中心的语言模型研究领域内的趋势项目和优秀论文,包含大规模数据整理、数据质量评估、评估工具包等
大型视觉语言模型的海量多模态交叉理解基准测试,旨在评估模型在不同领域中的理解与生成能力,支持自动化的可靠度量。
该框架将3D感知集成到预训练的2D扩散模型中,增强了得分蒸馏的鲁棒性和3D一致性,旨在解决2D扩散模型无法捕捉3D一致性的问题。
FluxKits是一个包含Flux-mini和Flux-NPU的工具集,其中Flux-mini是一个3.2B参数的文生图模型,经过蒸馏自12B的Flux-dev模型,显著降低了硬件需求;而Flux-NPU则是支持在NPU设备上运行Flux模型的工具库。
YaRN是一个高效的上下文窗口扩展工具,旨在提高大型语言模型的上下文处理能力。
一套开源的环视物体检测方案,实现了在鸟瞰图视角下的特征优化,可应用于汽车自动驾驶场景。