DeepSeek-R1 是由 DeepSeek AI 开发、通过 NVIDIA NIM 平台支持的大型语言模型,拥有 6710 亿参数,专注于推理、数学和编码任务。它采用链式思维方法和测试时间扩展技术,能够生成文本、解决复杂推理问题、辅助编码和数学任务,并进行自然语言对话。模型提供精简版本,适合不同硬件环境使用,广泛应用于 AI 研究、教育、编码辅助等领域。
阿里云 PAI Model Gallery 是一个为开发者提供便捷 AI 模型部署的平台,特别支持 DeepSeek-V3 和 DeepSeek-R1 系列模型。这些模型分别是拥有 6710 亿参数的专家混合大语言模型和高性能推理模型。该服务通过一键部署功能,结合 BladeLLM、SGLang 和 vLLM 等加速技术,帮助用户轻松集成先进 AI 能力,无需复杂基础设施配置。
DeepSeek-R1 是由 DeepSeek AI 开发的大型语言模型,集成强化学习和链式思维能力,旨在通过 AWS 提供高效的 AI 解决方案。该模型在推理、数学和编码任务中表现出色,且成本比同类模型低 90-95%。它可以通过 Amazon Bedrock 和 SageMaker 等服务部署,适合构建生成式 AI 应用。
BiLLa是一个开源的中英双语LLaMA模型,通过扩充中文词表和利用任务型数据进行训练,显著提升了中文理解和推理能力。在评测中,BiLLa在中英语言建模和推理任务上表现优异,不仅优于其他模型,还在解题和代码得分方面超越了ChatGLM-6B。
混元Large是一个总参数量达到389B,激活参数量为52B的大规模语言模型,支持256K的上下文长度。在常识理解、推理任务和传统NLP任务中表现优异,尤其在数学能力方面,在GSM8K和MATH数据集上表现突出。
arc24是一个致力于创建能解决从未见过的推理任务的AI系统项目。这是基于Kaggle ARC Prize 2024比赛的实现,采用CRISP-DM方法论,包含完整的训练脚本、数据处理工具和文档,旨在探索通用人工智能(AGI)领域的推理能力。
自我反思检索增强生成(SELF-RAG)是一种新框架,通过检索和自我反思来增强语言模型的质量和准确性。
RAG系统旨在减少大型语言模型(LLM)的幻觉性回复,并将生成的回复与其来源关联。该系统强调在操作过程中进行验证的重要性,并探讨了系统鲁棒性的演变及其在软件工程中的潜在研究方向。
RankGPT是一个调查生成式LLM(如ChatGPT和GPT-4)在信息检索中的相关性排名能力的项目,旨在利用先进的生成模型提高信息检索的有效性。该项目引入NovelEval测试集以验证模型对未知知识的排名能力,并通过置换蒸馏方案将排名能力转化为小型专有模型,在BEIR基准测试中显示出优于传统监督模型的性能。
Textbook Quality是一个用于生成非常长、教科书质量的LLM预训练数据的项目,旨在为机器学习模型提供高质量的文本数据。该项目支持多种文本生成选项,并能够处理大规模数据集,优化生成文本的连贯性和准确性。
自然语言理解的精彩讲座,涵盖广泛的主题,包括监督情感的领域适应、检索增强的上下文学习、NLP 技术/方法等。
NoPlagio是一个在线抄袭检测及防止抄袭的平台,帮助用户检查其书面内容的原创性。该平台利用先进的算法和数据库分析文本与互联网及其他出版物的相似性。我们的服务提供多种功能,包括抄袭去除和语法检查,帮助用户提高作品的质量和准确性。该平台广泛应用于学生、教师、写作者和企业,以确保其工作的真实性,并避免潜在的抄袭法律问题。
这个开源项目的功能是提供 ChatGPT 提问技巧,帮助用户向 ChatGPT 提问以获得高质量答案,并包含了提示技巧工程完全指南。它是一个用于机器学习领域的开源项目。
bundleIQ是一个利用AI技术加速研究的工具,用户可以导入论文和材料,提出问题以获取洞见,建立联系,加速学习,并记录关键发现。
Chatkitab是一个利用人工智能的聊天机器人,根据用户的情感和需求进行回应,旨在提供智能和个性化的对话体验。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型