ViTLP开源项目 – 视觉文档理解模型

ViTLP（Text-Layout Pre-training）是一种视觉文档理解（VDU）模型，能够从文档图像中联合建模文本和布局信息。它通过分层生成模块和多分段生成预训练方案，有效地处理长文档，并在微调中处理任意长度的文档。ViTLP解决了传统VDU模型依赖OCR管道和忽略布局信息的问题，提供了一种更高效的文档理解方式。

ViTLP的特点:

1. 联合建模文本和布局信息
2. 支持长文档处理
3. 无需依赖OCR管道
4. 提供预训练模型ViTLP-medium
5. 支持文本定位和识别
6. 推理速度快，内存占用低

ViTLP的功能:

1. 使用预训练模型进行OCR文本定位和识别
2. 微调模型以适应特定OCR数据集
3. 使用合成文档工具生成带边界框元数据的文档
4. 运行demo进行文档图像处理
5. 批量解码文档图像

相关导航

通义官网 – 阿里云开发的AI助手

通义是由阿里云开发的大型语言模型，支持多轮对话、内容创作、逻辑推理、多模态理解和多语言支持。它于2023年9月13日公开上线，提供提示词模板、联网搜索功能，且模型开源，用户可自由定制和部署。通义旨在成为用户的个人AI助手，辅助工作、学习和生活，覆盖广泛的应用场景。

GPT-3.5-Turbo-16k官网 – 处理长文档的语言模型

GPT-3.5-Turbo-16k 是由 OpenAI 推出的语言模型，拥有 16k 上下文窗口，是标准 GPT-3.5-Turbo 的四倍，适合处理长达约 20 页的文本，特别适用于长文档处理和详细分析。其定价为每 1,000 个输入 token 0.003 美元，每 1,000 个输出 token 0.004 美元，与标准版本保持一致。用户可以通过 OpenAI 的 API 请求使用该模型，需在请求中指定模型名称为 'gpt-3.5-turbo-16k'。

Gemini 1.5 Pro官网 – 高效的多模态混合专家模型

一种计算效率高的多模态混合专家模型，能够从包括多个长文档和数小时的视频和音频在内的数百万个Tokens上下文进行推理。

Claude 3官网 – 下一代工作AI，安全且准确

Claude 3是一个为工作而设计的下一代人工智能，经过训练以确保安全性和准确性。用户可以通过claude.ai与Claude互动，分析图像并处理长文档。对于开发者和企业，提供API访问以便在AI基础设施上构建应用。

ReadAgent开源项目 – 提升阅读理解能力的代理系统

一种 LLM 代理系统，旨在解决大型语言模型在处理长输入时的限制，通过有效上下文长度的显著增加来提升阅读理解能力。

CraftaQuiz官网 – AI驱动的测验生成工具

CraftaQuiz是一个AI驱动的测验生成器，可以将任何文本转化为测验，帮助教育工作者快速制作可打印的PDF测验，显著减少作业准备时间。

Solid Diary – AI Journal-100%私密的AI引导日记

Solid Diary 是一个完全私密的AI引导日记，旨在帮助用户进行自我反思和个人成长。

Goku开源项目 – 基于流的高质量视频生成模型

Goku是由字节跳动与香港大学联合开发的一款基于Rectified Flow Transformer架构的视频生成模型。它通过精细的数据处理、模型设计和流式生成技术，实现了高质量的图像和视频生成。Goku支持多种生成任务，包括文本到视频、图像到视频和文本到图像生成，尤其在虚拟数字人和广告场景中表现突出。在权威测试VBench中，Goku的文本到视频生成得分达84.85，创下新纪录（SOTA）。

AiSDR官网 – 创新的AI销售开发工具

AiSDR是一个创新的AI销售开发代表工具，旨在通过自动化和优化邮件活动和潜在客户管理，彻底改变企业的销售漏斗，加快销售流程并降低运营成本。

Decode官网 – 用AI工具快速创作故事

Decode是一个面向儿童的故事创作平台，利用AI驱动的工具，让用户能够在几分钟内构建出精彩的故事。它简单易用，旨在激发孩子们的创造力和想象力，帮助他们更好地表达自己。

HanFei开源项目 – 国内首个全参数训练的法律大模型

HanFei-1.0 (韩非) 是国内首个全参数训练的法律大模型，专为法律领域设计，具备强大的法律文本处理能力，能够高效解答法律问题，支持多种法律应用场景，帮助用户快速获取法律信息和服务。

WisdomAI by Searchie官网 – 智能对话平台，提升用户互动

WisdomAI是由Searchie开发的基于GPT-4的生成式AI聊天平台，旨在帮助创作者解锁其内容，与受众以对话方式进行互动。通过对创作者内容的训练，WisdomAI能够根据所学知识提供全面的回答，促进与用户的实时交流。

paraphrasingtoolfree.com官网 – 免费的AI文本改写工具

paraphrasingtoolfree.com 是一个免费的AI文本改写工具，可以将句子、文章、段落和论文用您自己的话进行重写和改述。用户只需输入文本，点击改写按钮，即可获得改写后的结果。

GPT-4V-API-自托管的GPT开源项目 – 4V API解决方案

GPT-4V-API是一个允许用户自托管GPT-4V模型的API，提供高效的API调用和多种输入格式支持，便于与现有应用的集成和灵活配置，满足不同用户的需求。

Zoom Media Asset Management System官网 – 简化创意和媒体工作流程

Zoom Media Asset Management System是Evolphin公司提供的一款数字资产管理和媒体资产管理解决方案，专为创意、市场营销和IT团队设计。该软件简化了图像、音频和视频的工作流程，提供先进的人工智能功能、快速搜索、强大的版本控制及Adobe插件等多种功能，帮助团队高效管理创意管道中的各类资产。

暂无评论

暂无评论...