一个用本地大型语言模型生成合成数据的Python库,提供灵活易用的接口,帮助用户创建由提示引导的数据集。用户可以根据自身需求定制数据集,适用于多种数据生成场景,提升数据科学工作流的效率。
Yadget是一个数据生成工具,旨在帮助创作者生成合成数据,以测试和验证他们的数字产品,特别适用于机器学习和人工智能项目。
这个开源项目提供了一个精选资源列表,收录了关于合成数据的研究论文、教程、视频、库等等,适用于机器学习等领域。
大规模开源的遥感图像地质灾害点变化检测数据集,包含17对时变超高分辨率遥感图像,分辨率0.59m,采集自谷歌地球服务。总覆盖面积163.77平方公里,图像来自不同地理位置、时间、地表类型的地质灾害点,具有丰富的光谱异质性。
MagicTables是一个Python库,旨在革新数据科学工作流。它可以将API响应转换为DataFrame,支持使用自然语言进行数据查询,并轻松链式处理多个数据源,让用户专注于数据科学,而不是数据处理的痛苦。
Instill VDP是一个开源的无代码/低代码平台,旨在快速创建AI工作流程。它能够处理非结构化数据,确保高效的数据连接、灵活的管道设计,以及平滑的AI模型与数据源集成。
MockThis是一个利用GPT技术生成真实合成数据的AI工具,旨在简化各种应用的模拟数据生成过程。用户可以通过网站或API轻松生成所需数量的模拟数据,支持JSON格式输出,适用于软件开发、原型设计、数据分析等多种场景。
metaseq是一个用于训练和评估大型序列模型的框架,旨在简化和加速大规模模型的开发过程。
Aurora AI是一个提供高质量合成数据的平台,旨在以实惠的价格生成模拟真实数据特征的合成数据,同时保护敏感信息。用户可以通过网站注册账户,访问数据生成功能,根据需求指定合成数据集的格式、结构和大小,Aurora AI的先进算法和模型将基于这些要求生成合成数据。
Cleora PRO帮助数据科学和分析团队在没有昂贵硬件的情况下创建高质量的嵌入。用户可以通过加入Cleora PRO的私人测试版,从数据库中提取三列数据,系统会自动检测数据中的图形。