Galactic是一个用于处理大规模非结构化文本数据集的工具,提供清理和筛选功能,旨在筛选微调数据集、创建用于检索增强生成(RAG)的文档集合,甚至对LLM预训练Web规模数据集进行去重。
LLM Twin Course 是一门全面的大型语言模型(LLM)免费学习课程,教授如何构建生产级别的 LLM 和基于 LLM 的检索增强生成(RAG)系统。课程包含11节动手课程,涵盖从数据收集到部署的全过程,并提供了所有实践涉及的源码。课程内容涵盖了系统设计、数据工程、特征管道、训练管道和推理管道等方面,适合中级的机器学习工程师、数据工程师和软件工程师,需具备Python、ML和云计算的基础知识。
这是一个超快的文本嵌入模型推断解决方案,支持多种文本嵌入模型,易于集成和使用,具有高效的资源管理能力。
Doctran是一个文档转换框架,旨在通过使用大型语言模型(LLM)和开源自然语言处理(NLP)库,将原始文本转换为干净、结构化、信息密集的文档,从而优化向量空间检索的效果。该框架能够有效地处理非结构化文本数据,提升文档的可读性和检索效率。
Imaginary Programming 是一个利用 OpenAI GPT 引擎作为运行时的 AI 工具,帮助开发者在不需要专门机器学习团队的情况下解决新问题。开发者可以在 TypeScript 中定义函数原型,并利用 GPT 的智能来处理其余部分。
完全开源的、基于LlamaIndex、Pgvector、React和Django的海量文档分析平台,能够有效处理和分析大量文档,提供高效的查询和数据提取功能。
Acquire AI是一个AI市场和平台,用户可以发现、购买、构建和出售创新且可扩展的AI项目。它为AI爱好者、开发者和企业提供了一个全面的生态系统,以便探索、获取和协作AI项目。
Ragie是一个完全托管的RAG即服务平台,旨在帮助开发者简化结构化和非结构化数据的获取、分块及多模态索引。其提供直观的开发者体验,简单的API和SDK,能够与Google Drive、Notion、Confluence等数据源无缝集成,并具备高级功能,如摘要索引、分块重排序和灵活的向量过滤,以助力应用交付最先进的生成式AI。
Nuclia是一个AI驱动的搜索和生成答案平台,能够自动索引来自任何源的非结构化数据。用户可以通过关键字或自然语言查询来获取准确的搜索结果和生成的答案。
ChunkDot矩阵计算库:多线程矩阵乘法和余弦相似度计算工具,适用于密集和稀疏矩阵,通过分块项目矩阵表示(嵌入)和使用Numba加速计算,快速计算大量项目中最相似的K个项目