MNBVC开源项目 – 超大规模中文语料数据集

MNBVC（Massive Never-ending BT Vast Chinese corpus）是一个超大规模中文语料集，旨在收集各种形式的纯文本中文数据，包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等。该数据集不仅涵盖主流文化，还包括各类小众文化及火星文，目标数据量达到40TB，目前进度为19.96%（7984GB），支持社区参与和协作。
MNBVC的特点:
1. 收集多种类型的中文文本数据
2. 超大规模中文语料集
3. 涵盖主流文化与小众文化
4. 包含火星文的数据
5. 支持社区参与和协作
6. 适合用于训练大规模语言模型

MNBVC的功能:
1. 参与数据收集和清洗工作
2. 使用清洗好的分类数据进行研究
3. 贡献自己的数据或资源
4. 用于训练聊天机器人
5. 支持自然语言处理研究
6. 用于文本生成任务
7. 适用于文化研究与分析

相关导航

Dflux官网 – 统一数据科学平台，助力数据洞察

Dflux是一个集成的数据科学平台，旨在提供无缝的数据探索、分析和模型开发体验。它帮助用户快速获取可操作的洞察，提升数据分析效率，支持各类数据任务。

Ainsys官网 – 无缝数据集成与同步平台

Ainsys是一个提供无缝数据集成和同步的平台，可以将来自各种来源的数据集中到一个数据仓库中，用户无需技术专长即可轻松连接和访问数据。通过Ainsys，用户可以轻松转换和精炼数据，将其导出到所需工具中，并为业务获得有价值的洞察。

Cortados官网 – 用于数据科学和机器学习的Web应用

Cortados 是一个基于 Streamlit 的工具，允许用户轻松创建和部署数据科学及机器学习项目的Web应用。用户只需使用pip安装Cortados，编写所需功能的Python脚本，然后通过 'streamlit run' 命令运行该脚本，即可在浏览器中显示应用。

Docalysis官网 – AI驱动的PDF交互服务

Docalysis是一个基于人工智能的聊天服务，允许用户与PDF文件进行互动。它能够读取和理解文档内容，快速准确地回答用户的问题。用户只需上传PDF文件，AI会分析并提取文本，用户可以基于提取的文本提出问题或输入关键词，Docalysis将提供即时响应和相关信息。

Shape官网 – 连接数据库的智能数据工具

Shape 是一款连接您的数据库并准确回答数据相关问题的工具，它提供假设、警告、表格和 SQL 语句，降低了产品经理对数据的使用门槛。

LLime官网 – 为企业定制AI助手

LLime通过深入理解企业数据，设计个性化的AI助手，帮助提升团队生产力，推动数据驱动决策。

AI Collective官网 – 整合多种AI模型的强大平台

AI Collective是一个在线平台，允许用户访问所有领先的LLM（大型语言模型）和文本生成AI模型，旨在为用户提供多样化的AI工具和解决方案，提升工作效率和创造力。

ChatGPT Data & Analytics官网 – 数据分析的变革之旅

ChatGPT 数据与分析项目提供了一系列提示，帮助用户高效学习和应用数据分析技能，结合ChatGPT的能力，用户能够轻松获得数据分析中的关键见解和技巧。

ChatGPT Data Science官网 – 数据科学的智能助手

ChatGPT Data Science是一个针对数据分析师、数据工程师、Python开发者、量化分析师、机器学习科学家和数据科学家等各类数据专业人士的工具，适用于所有技能水平的用户。该项目提供了一系列高效的提示，帮助用户更好地处理数据任务，提高工作效率。

ChartPixel官网 – 创新的AI数据可视化工具

ChartPixel是一个创新的AI驱动工具，旨在快速有效地转换数据交互。它能在30秒内生成图表和洞察，简化复杂的数据解释过程，适合从学生到专业人士的广泛用户。

Langfuse官网 – AI基础设施产品获奖者

Langfuse是一个旨在帮助开发者构建和管理AI应用程序的基础设施平台，提供了丰富的功能和工具，以简化AI模型的集成和部署。其目标是让AI开发变得更简单、高效，并降低技术门槛。

AskExcel官网 – AI助手，助力数据分析

AskExcel 是一款专为数据分析设计的人工智能助手，用户可以通过与其对话来获取与数据分析相关的帮助.

Thema官网 – 颠覆战略智能的AI工具

Thema是一个前沿的AI工具，旨在通过深入分析复杂数据景观来革命化战略智能，特别适合需要高效识别趋势和战略机会的商业策略师、分析师和决策者。

CuteGPT开源项目 – 中英双语的开源对话模型

CuteGPT是复旦大学知识工场实验室推出的一个支持中英双语的开源对话语言模型，基于Llama模型结构进行改进和扩展，规模为13B（130亿）参数，可以在单张3090显卡上进行int8精度的推理。

minGPT开源项目 – 小巧而易于理解的GPT实现

minGPT是用PyTorch重新实现的GPT，旨在变得小巧、干净、可解释和具有教育意义，适合学习和研究。

Awesome deep logic开源项目 – 深度符号逻辑领域的文献集合

这个项目汇集了深度符号逻辑领域的研究论文，主要关注自然语言处理应用，适合研究人员和开发者参考，提供最新的研究动态和趋势。

chatgpt-corpus开源项目 – 中文语料库，助力大模型训练

ChatGPT 中文语料库，包含对话、小说和客服等多种类型的中文语料，旨在为大型语言模型的训练提供丰富的数据支持，支持多种文本格式，适合多种场景应用。

MLX-Textgen开源项目 – 轻量级文本生成工具

MLX-Textgen是一款轻量Python包，旨在在兼容OpenAI的API端点上提供大型语言模型(LLM)服务。通过MLX实现的智能缓存机制，使得文本生成更加流畅与高效，适合多种文本生成任务，易于集成到现有应用中。

sycophancy-eval开源项目 – 评估AI助手的阿谀奉承行为

sycophancy-eval是一个专门用于评估大语言模型在文本生成中表现出的拍马屁行为的数据集。它包含多种自由形式的文本生成任务，能够分析AI对用户偏见和错误的响应模式，并提供数据集以支持进一步研究AI的行为。

Foundation Text Generation Models Below 360M Parameters – 超小文本生成模型集合

这是一个包含所有模型体积小于360M的超小模型列表，专为快速验证和微调场景设计。这些模型适用于各种文本生成任务，能够在资源有限的情况下高效运行。

COVID-19 Related NLP Papers开源项目 – 与新冠疫情相关的NLP论文列表

一个包含与新冠疫情相关的自然语言处理论文的列表，致力于帮助研究者和从业者获取最新的研究成果和信息。

ChatGLM2-6B开源项目 – 强大的中英双语对话模型

开源中英双语对话模型 ChatGLM-6B 的第二代版本，拥有更强大的性能、更长的上下文、更高效的推理和更开放的协议。

DataAug4NLP开源项目 – NLP数据增强文献集

该项目是一个关于自然语言处理(NLP)数据增强的文献集，收录了多篇相关研究论文和技术资源，旨在为研究人员和开发者提供最新的NLP数据增强方法和应用实例，促进相关领域的研究和开发。

Accepted Papers Lists开源项目 – 汇集多个会议接收论文列表

这是一个关于机器学习、数据库和自然语言处理领域会议接收论文的集合，旨在为研究人员提供最新的研究趋势和成果，方便查找和引用相关论文。

暂无评论

暂无评论...