Kreuzberg是一个现代化的Python库,专为文档中的文本提取而设计,旨在简化和提高效率。它提供了统一的异步接口,支持从包括PDF、图片、Office文档等在内的多种文件格式中提取文本。
用于从论文PDF文件生成报告的Python脚本,使用OpenAI的GPT-4模型。先提取PDF文件中的文本,将文本发送给GPT-4模型进行处理,并将生成的报告保存为文本文件。
PDF Guru是一个多功能的PDF文件处理工具,支持本地化操作,提供合并、拆分、旋转、水印、加密等20余项功能,界面简洁,跨平台使用,完全开源免费。
一款能够处理PDF、Word文档等多种格式文件的自然语言处理工具,将结构化数据处理与spaCy的强大功能相结合,输出清晰、结构化的数据,并提供熟悉的Doc对象以访问标记文本区域
Auto-GPT-ZH是中文版AutoGPT,旨在提供一个中文环境下的自动化GPT应用,支持多种API扩展,用户可以自定义任务和目标,具有高效的文本生成和对话能力,界面友好,适合各种中文场景的应用。
corpus是一个包含多种自然语言处理和知识图谱相关语料的大列表,旨在为研究人员和开发者提供丰富的语料资源。它支持多种自然语言处理任务,并且开源,易于使用和扩展。
LLM Giraffe🦒可以用来扩展LLM的上下文长度,它实现了将LLAMA v1 2K的上下文长度扩展为4K和16K,支持长文本处理,优化上下文管理,易于集成到现有的LLM工作流中。
Claude 2是由Anthropic AI开发的高级语言模型,能够处理多种文本文件,如PDF和Word文档,并根据内容提供洞见。
SquareDev是一个专为开发基于语言模型的应用而设计的平台,支持多种用例,如与数据聊天、生成个性化文本、聊天机器人、语义搜索以及文本和知识提取等功能。
YesChat是一个集成了GPT-4o和DALL·E 3等先进AI技术的平台,旨在提升工作效率和生产力,支持文本生成、图像创建和文档分析等多种功能,适用于专业需求。
ClusterTransformer是一个基于Transformer嵌入的主题聚类库,能够有效地对文本数据进行主题聚类,使用余弦相似度进行相似性度量,兼容所有来自Hugging Face的BERT基础模型,并支持多种文本数据格式,便于集成和使用。
PDFtoPDF是一个先进的OCR工具,专为深度学习和内容分析而设计。它能够准确识别和转换扫描书籍中的文本,精确恢复原始格式,如标题和高亮部分。
AI Cases Convert 是一个自动将文本转换为不同格式的工具,用户只需输入文本,选择所需的格式,然后点击'转换'按钮即可立即获得结果,方便快捷。
AAGPT是一个实验性开源应用,展示了大型语言模型(如GPT-3.5和GPT-4)的能力,适合研究和学习使用。它支持多种自然语言处理任务,便于社区的贡献与合作。
gptpdf是一个利用GPT技术来解析和分析PDF文件的工具,能够将PDF内容转换为Markdown格式,支持复杂排版、数学公式、表格、图片和图表的完美解析。
该项目提出了一个简单易用的框架,代码可在github上获取,旨在帮助用户快速进行文本处理和展示。