CuteGPT是复旦大学知识工场实验室推出的一个支持中英双语的开源对话语言模型,基于Llama模型结构进行改进和扩展,规模为13B(130亿)参数,可以在单张3090显卡上进行int8精度的推理。
该项目是一个关于自然语言处理(NLP)数据增强的文献集,收录了多篇相关研究论文和技术资源,旨在为研究人员和开发者提供最新的NLP数据增强方法和应用实例,促进相关领域的研究和开发。
这是一个关于机器学习、数据库和自然语言处理领域会议接收论文的集合,旨在为研究人员提供最新的研究趋势和成果,方便查找和引用相关论文。
minGPT是用PyTorch重新实现的GPT,旨在变得小巧、干净、可解释和具有教育意义,适合学习和研究。
一个包含与新冠疫情相关的自然语言处理论文的列表,致力于帮助研究者和从业者获取最新的研究成果和信息。
开源中英双语对话模型 ChatGLM-6B 的第二代版本,拥有更强大的性能、更长的上下文、更高效的推理和更开放的协议。
ChatGPT 中文语料库,包含对话、小说和客服等多种类型的中文语料,旨在为大型语言模型的训练提供丰富的数据支持,支持多种文本格式,适合多种场景应用。
这个项目汇集了深度符号逻辑领域的研究论文,主要关注自然语言处理应用,适合研究人员和开发者参考,提供最新的研究动态和趋势。
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模中文语料集,旨在收集各种形式的纯文本中文数据,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等。该数据集不仅涵盖主流文化,还包括各类小众文化及火星文,目标数据量达到40TB,目前进度为19.96%(7984GB),支持社区参与和协作。
Dflux是一个集成的数据科学平台,旨在提供无缝的数据探索、分析和模型开发体验。它帮助用户快速获取可操作的洞察,提升数据分析效率,支持各类数据任务。
Ainsys是一个提供无缝数据集成和同步的平台,可以将来自各种来源的数据集中到一个数据仓库中,用户无需技术专长即可轻松连接和访问数据。通过Ainsys,用户可以轻松转换和精炼数据,将其导出到所需工具中,并为业务获得有价值的洞察。
riverbed 是一个支持大规模数据挖掘和自然语言处理的工具集,提供多种高效的功能,帮助用户在复杂的数据环境中进行深入分析。
Cortados 是一个基于 Streamlit 的工具,允许用户轻松创建和部署数据科学及机器学习项目的Web应用。用户只需使用pip安装Cortados,编写所需功能的Python脚本,然后通过 'streamlit run' 命令运行该脚本,即可在浏览器中显示应用。
由Hugging Face、Argilla和开源机器学习社区共同合作的项目,旨在赋予开源社区共同构建有影响力的数据集的能力。
Docalysis是一个基于人工智能的聊天服务,允许用户与PDF文件进行互动。它能够读取和理解文档内容,快速准确地回答用户的问题。用户只需上传PDF文件,AI会分析并提取文本,用户可以基于提取的文本提出问题或输入关键词,Docalysis将提供即时响应和相关信息。
Shape 是一款连接您的数据库并准确回答数据相关问题的工具,它提供假设、警告、表格和 SQL 语句,降低了产品经理对数据的使用门槛。
LLime通过深入理解企业数据,设计个性化的AI助手,帮助提升团队生产力,推动数据驱动决策。
AI Collective是一个在线平台,允许用户访问所有领先的LLM(大型语言模型)和文本生成AI模型,旨在为用户提供多样化的AI工具和解决方案,提升工作效率和创造力。