Umi-OCR 是一款开源、免费且离线的OCR软件,专为识别和转换图像中的文本内容而设计。它支持多国语言识别,并提供多种文本后处理功能,如排版优化、忽略区域排除等。基于 Python 和 Qt 开发,Umi-OCR 拥有简洁直观的用户界面,支持截图识别、批量识别、PDF文档识别和二维码处理等功能。软件内置高效的离线OCR引擎,并支持通过插件扩展OCR能力,同时提供命令行和HTTP接口,方便开发者进行二次开发和集成。
Namo-R1是一款仅需CPU即可实时运行的500M参数视觉语言模型,能够轻松超越Moondream2和SmolVLM。它不仅支持多语言OCR和图像描述等复杂任务,还完全开源,提供训练脚本和数据,便于用户进行二次开发和部署。
MiniCPM-V 是一款拥有 8B 参数的先进 AI 模型,性能优于 GPT-4V 等顶级型号,提供卓越的 OCR 功能,并支持 30 多种语言。它是一个强大的端侧多模态大语言模型,在单图像、多图像和视频理解方面超越了 GPT-4V,支持在 iPad 等终端设备上进行实时视频理解。MiniCPM-V 2.0 是一个高效的端侧多模态大模型,具有强大的 OCR 和图文理解能力,并且是一个开源项目。
WhisperUI 是一个由 OpenAI Whisper API 提供支持的语音合成和语音识别服务,提供经济实惠的文本转语音和语音转文本选项。用户可以通过注册账户,上传音频文件或拖放到平台上,支持多种音频格式。
Chatmasters AI是一款经济实惠的人工智能助手,适用于企业和个人使用。它提供快速的服务、多语言支持和便捷的集成,能够降低成本并提升客户满意度。
ChatGLM-6B-API是基于清华大学开源的对话语言模型ChatGLM-6B和FastAPI构建的API,能够在本地部署并提供API接口,方便用户进行对话生成和自然语言处理。
这个开源项目是一个基于 OpenAI API 的对话引擎,它使用了官方 ChatGPT 模型实现。它可以通过 Joel GitHub 上的代码实现。
长颈鹿版LongLLaMA是一个专门针对上下文长度达到100K的情况下,保持模型性能的研究项目。它提出了一种新的训练目标,以有效处理长文本中的相关与无关的key-value空间结构,从而解决模型的分心问题,确保在处理超长文本时的高效性和准确性。
Smarty是一款基于AI的iOS键盘,旨在帮助用户撰写消息、建议单词,并对文章、网站和YouTube视频进行总结。用户只需在iOS设备上安装Smarty键盘并在键盘设置中启用它,即可开始撰写消息并充分利用其AI功能。
corpus是一个包含多种自然语言处理和知识图谱相关语料的大列表,旨在为研究人员和开发者提供丰富的语料资源。它支持多种自然语言处理任务,并且开源,易于使用和扩展。
Humata AI 是一款先进的文档管理工具,能够快速分析和总结各种文档格式的信息,支持实时问答,提升数据处理效率。
Fine-Tuner AI是一款强大的工具,利用尖端的微调技术提升您的自然语言处理(NLP)模型性能。它可以在更少的数据下以极短的时间内实现更好的结果。用户只需将NLP模型和数据上传到平台,Fine-Tuner将应用其先进的微调算法,优化模型以提高性能。优化后的模型可以轻松集成回现有工作流程中。
一个开源的文档管理系统,可以将你的物理文档转换成可搜索的在线档案,从而减少纸张的使用。
Wisedocs是一个强大的AI平台,旨在彻底改变医疗记录的审查过程,主要服务于保险和法律行业。通过利用人工智能,Wisedocs简化并加速医疗索赔的处理,提供医疗时间线、智能OCR和自动去重等功能,成为优化文档处理工作流程的必备工具。
基于Rust语言实现的多语言文档OCR工具包,结合修改版Segformer、OpenCV和donut transformer,提供高效的文档识别与处理功能。
gochitchat.ai是一个集聊天、写作、阅读、翻译、解释和图像测试于一体的高级AI助手,支持ChatGPT 3.5/4、Bard、新必应和Claude,可以在任何网页上访问。用户只需安装Chrome或Edge扩展,即可开始与AI互动。
Parseur是一款利用AI技术自动化从文档中提取数据的软件,支持电子邮件、PDF、电子表格等多种非结构化数据源,旨在将繁杂的文档信息转化为结构化、可操作的数据,极大降低人工数据输入的工作量。
TransAgents是一个基于大型语言模型的多智能体框架,专注于满足翻译文学作品的复杂需求。通过集体能力,TransAgents能进行高质量的文学翻译,效果媲美人工翻译。该框架使用AI智能体分别扮演不同的角色,以优化翻译过程,并采用创新的评估策略来确保翻译质量。