这是一个包含所有模型体积小于360M的超小模型列表,专为快速验证和微调场景设计。这些模型适用于各种文本生成任务,能够在资源有限的情况下高效运行。
MLX-Textgen是一款轻量Python包,旨在在兼容OpenAI的API端点上提供大型语言模型(LLM)服务。通过MLX实现的智能缓存机制,使得文本生成更加流畅与高效,适合多种文本生成任务,易于集成到现有应用中。
sycophancy-eval是一个专门用于评估大语言模型在文本生成中表现出的拍马屁行为的数据集。它包含多种自由形式的文本生成任务,能够分析AI对用户偏见和错误的响应模式,并提供数据集以支持进一步研究AI的行为。
MNBVC(Massive Never-ending BT Vast Chinese corpus)是一个超大规模中文语料集,旨在收集各种形式的纯文本中文数据,包括新闻、作文、小说、书籍、杂志、论文、台词、帖子、wiki、古诗、歌词等。该数据集不仅涵盖主流文化,还包括各类小众文化及火星文,目标数据量达到40TB,目前进度为19.96%(7984GB),支持社区参与和协作。
Dflux是一个集成的数据科学平台,旨在提供无缝的数据探索、分析和模型开发体验。它帮助用户快速获取可操作的洞察,提升数据分析效率,支持各类数据任务。
Ainsys是一个提供无缝数据集成和同步的平台,可以将来自各种来源的数据集中到一个数据仓库中,用户无需技术专长即可轻松连接和访问数据。通过Ainsys,用户可以轻松转换和精炼数据,将其导出到所需工具中,并为业务获得有价值的洞察。
riverbed 是一个支持大规模数据挖掘和自然语言处理的工具集,提供多种高效的功能,帮助用户在复杂的数据环境中进行深入分析。
Cortados 是一个基于 Streamlit 的工具,允许用户轻松创建和部署数据科学及机器学习项目的Web应用。用户只需使用pip安装Cortados,编写所需功能的Python脚本,然后通过 'streamlit run' 命令运行该脚本,即可在浏览器中显示应用。
由Hugging Face、Argilla和开源机器学习社区共同合作的项目,旨在赋予开源社区共同构建有影响力的数据集的能力。
Docalysis是一个基于人工智能的聊天服务,允许用户与PDF文件进行互动。它能够读取和理解文档内容,快速准确地回答用户的问题。用户只需上传PDF文件,AI会分析并提取文本,用户可以基于提取的文本提出问题或输入关键词,Docalysis将提供即时响应和相关信息。
Shape 是一款连接您的数据库并准确回答数据相关问题的工具,它提供假设、警告、表格和 SQL 语句,降低了产品经理对数据的使用门槛。
LLime通过深入理解企业数据,设计个性化的AI助手,帮助提升团队生产力,推动数据驱动决策。
AI Collective是一个在线平台,允许用户访问所有领先的LLM(大型语言模型)和文本生成AI模型,旨在为用户提供多样化的AI工具和解决方案,提升工作效率和创造力。
ChatGPT 数据与分析项目提供了一系列提示,帮助用户高效学习和应用数据分析技能,结合ChatGPT的能力,用户能够轻松获得数据分析中的关键见解和技巧。
ChatGPT Data Science是一个针对数据分析师、数据工程师、Python开发者、量化分析师、机器学习科学家和数据科学家等各类数据专业人士的工具,适用于所有技能水平的用户。该项目提供了一系列高效的提示,帮助用户更好地处理数据任务,提高工作效率。
ChartPixel是一个创新的AI驱动工具,旨在快速有效地转换数据交互。它能在30秒内生成图表和洞察,简化复杂的数据解释过程,适合从学生到专业人士的广泛用户。
Poozle 正在构建票务 SaaS 工具的集成基础设施,提供一个 API,使公司能够同时集成多个工具,如 Github、Jira、Notion、Zendesk、Salesforce 等。支持大型语言模型(LLM)的集成,提供可扩展的API接口,灵活的插件系统,用户友好的界面,以及强大的社区支持和文档。
数据中心语言模型研究精选:汇总了数据为中心的语言模型研究领域内的趋势项目和优秀论文,包含大规模数据整理、数据质量评估、评估工具包等