收录各种各样的指令数据集,用于训练 ChatLLM 模型,支持多种自然语言处理任务。
ConvAI bot是一个专为NIPS 2017智能会话挑战赛而开发的基于技能的对话代理,旨在实现自然流畅的对话,能够适应不同的对话场景并学习用户的偏好。
一个开源的 ChatGPT 产品,基于20B的聊天 GPT 模型,尽管尚未成熟,但已经具备基本雏形。
ERNIE是百度开发的自然语言处理框架,旨在通过持续学习和预训练技术提升语言理解与生成能力。它支持多种自然语言处理任务,包括文本分类、问答系统、文本生成等,并在多种任务中实现了最先进的性能。ERNIE基于Transformer架构,具备高效的模型优化和训练策略,支持多语言处理,适用于中文及其他语言的自然语言处理任务。
悟道·天鹰Aquila2包含基础语言模型Aquila2-7B和Aquila2-34B,支持对话模型AquilaChat2-7B和AquilaChat2-34B,以及长文本对话模型AquilaChat2-7B-16k和AquilaChat2-34B-16k,适用于各种自然语言处理任务。
基于 LLaMA-7B 经过中文数据集增量预训练,旨在提升中文自然语言处理能力。
中科闻歌研发的新一代开源大语言模型,采用了超过 2 万亿 Tokens 的高质量、多语言语料进行预训练。
Qwen2.5是由阿里云Qwen团队开发的超大型语言模型系列,专注于提供智能、易用、decoder only的语言模型,支持多语言和长文本生成。
哔哩哔哩自研大语言模型,提供多样化的对话和角色扮演功能,支持多种评测基准,具有领先的性能表现
FastChat是一个基于Llama-2构建的对话生成项目,支持32k的上下文长度,旨在提供高效的对话生成能力,适用于多种应用场景。它是一个开源项目,易于自定义和扩展,适合开发聊天机器人和进行自然语言处理任务。
permchain 是一个用于使用 LLM 构建有状态的多参与者应用的开发库,扩展了 LangChain 表达式语言,能够跨多个计算步骤协调多个链(或参与者)。
VisualGLM-6B 是一个开源的,支持图像、中文和英文的多模态对话语言模型,基于 ChatGLM-6B,具有 62 亿参数,整体模型共78亿参数。该模型可以在消费级显卡上本地部署,适用于多种视觉任务,具备生成诗歌、评论图像的能力,并且支持低显存需求的量化技术。
GPT-3 是一个具有 1750 亿参数的强大语言模型,展示了更大的模型在多种实际任务中表现更好的现象。它在自然语言处理领域具有显著的优势,能够理解和生成多种形式的文本。
Chinese LLaMA-Alpaca是一个专注于中文的LLaMA-Alpaca模型,旨在推动中文自然语言处理的研究和应用。该模型基于先进的LLaMA架构,适用于多种中文任务,帮助用户在中文环境中实现更智能的交互与分析。
NLP-Knowledge-Graph项目致力于将自然语言处理、知识图谱和对话系统三大技术进行深度研究与应用。该项目不仅支持构建和优化对话系统,还提供多种数据处理与分析工具,具备强大的可扩展性,允许用户自定义模块,并支持多语言处理,满足不同领域的需求。
langchain-ChatGLM是一个用于处理自然语言处理任务的项目,允许通过语义匹配和上下文管理来优化对话系统的表现。该项目支持将原文划分为单句进行处理,基于提问语义进行单句匹配,同时具备上下文管理功能,结合单句前后文本进行分析,并可通过chunk_size限制上下文长度。
ChatTTS-OpenVoice是一款结合ChatTTS和OpenVoice技术的开源个性化语音生成项目。它允许用户上传10秒的参考音频,通过先进的技术克隆出自然且个性化的语音。项目旨在提供高质量的语音合成解决方案,适用于多种应用场景。
femtoGPT 是一个使用纯 Rust 编写的最小生成预训练 Transformer 实现,旨在提供轻量级、高效的自然语言生成能力,易于集成和扩展,适合各种机器学习应用。