corpus是一个包含多种自然语言处理和知识图谱相关语料的大列表,旨在为研究人员和开发者提供丰富的语料资源。它支持多种自然语言处理任务,并且开源,易于使用和扩展。
该项目提供了现代深度学习技术在自然语言处理中的应用,包括多种模型和算法,结合实用代码示例,适用于多种NLP任务,文档易于理解,同时持续更新最新研究成果。
本项目基于Meta发布的可商用大模型Llama-2开发,开源了中文LLaMA-2基座模型和Alpaca-2指令精调大模型。这些模型在原版Llama-2的基础上扩充并优化了中文词表,使用了大规模中文数据进行增量预训练,进一步提升了中文基础语义和指令理解能力,相比一代相关模型获得了显著性能提升。相关模型支持4K上下文并可通过NTK方法最高扩展至18K+。
一款能够处理PDF、Word文档等多种格式文件的自然语言处理工具,将结构化数据处理与spaCy的强大功能相结合,输出清晰、结构化的数据,并提供熟悉的Doc对象以访问标记文本区域
ark-nlp是一个旨在收集和复现学术与工作中常用的自然语言处理模型的平台,支持多种NLP任务,并提供丰富的预训练模型,适合研究人员和开发者使用。
在MiniGPT4的基础上对齐了Qwen-Chat语言模型,使用高质量的指令微调数据,通过单阶段预训练达到了很好的效果。
MiniCPM-V 是一款拥有 8B 参数的先进 AI 模型,性能优于 GPT-4V 等顶级型号,提供卓越的 OCR 功能,并支持 30 多种语言。它是一个强大的端侧多模态大语言模型,在单图像、多图像和视频理解方面超越了 GPT-4V,支持在 iPad 等终端设备上进行实时视频理解。MiniCPM-V 2.0 是一个高效的端侧多模态大模型,具有强大的 OCR 和图文理解能力,并且是一个开源项目。
nlp-notebook 实现了 NLP 领域常见任务,包括新词发现、基于 PyTorch 的词向量、中文文本分类、实体识别、摘要文本生成、句子相似度判断等功能,旨在为用户提供便捷的自然语言处理解决方案。
KG-LLM-Papers是一个整合知识图谱(KGs)与大语言模型(LLMs)的研究论文平台,提供丰富的研究文献列表,专注于这两个领域的交叉点。该项目由ZJUKG精心策划,便于用户轻松获取相关文献,并定期更新新出版的论文。
FAMIE是一个快速的主动学习框架,专注于多语言信息抽取,旨在提高数据处理和模型优化的效率。它支持多种语言的信息抽取,提供用户友好的界面和灵活的模型配置,结合高效的数据标注工具,适用于快速迭代和评估不同的学习策略。
Pienso是一个先进的AI工具,旨在帮助用户分析大型数据集,特别是语言数据,无需广泛的编码技能。它提供了一个用户友好的平台,简化了探索、注释和从文本数据中获取见解的过程,使非技术用户也能轻松使用,同时仍提供深入分析的高级功能。