NLPretext是一个综合性的NLP文本预处理库,提供多种文本处理功能,旨在为各种NLP用例提供高效和灵活的解决方案。它支持大规模文本数据的高效处理,并且允许用户根据需求定制预处理选项,方便集成和使用。
该项目是Hugging Face Tokenizers库的C++复现版本,旨在提供高性能的分词功能,支持多种语言模型,并且与Python版本兼容,允许用户自定义分词策略。
自然语言处理(NLP)教程,涵盖文本词向量、词法分析、预训练语言模型等常见NLP任务,适合作为入门学习和基线参考。
Embedefy简化了获取嵌入的过程,使得增强各种AI应用变得更加容易。它提供了一个简单的API来检索文本的嵌入,适用于检索增强生成(RAG)、语义搜索等多种AI应用。此外,Embedefy的PostgreSQL扩展允许用户从数据库中直接访问嵌入,无需构建和维护额外的应用程序。
DeepSeek-V3 的Q4_k_m 量化版本,大小比原本的小一半,兼容性强,适用于多种环境,提升处理效率,同时保留大部分原始模型性能。
TorchScale 包含我们在Transformers稳定性(DeepNet)、通用性(Magneto/Foundation Transformers)和效率性(X-MoE)的一系列研究的官方实现。我们希望通过基础本质的研究探索AI(尤其是大模型)的通用结构,并在NLP,CV,Speech和多模态等领域的任务和基础模型中广泛验证,欢迎大家使用、交流、合作开发。
Eternity AI是印度理工学院帕特纳分校的一个研究项目,旨在构建一个以人为本的语言模型,能够通过访问实时互联网来模拟人类行为,减少幻觉,并在超过10万个行为参数上进行训练。
Lit-LLaMA是一个独立实现的LLaMA,完全开源,遵循Apache 2.0许可证,基于nanoGPT构建,旨在解决原始LLaMA代码在GPL许可证下的限制,以支持更广泛的学术和商业应用。
Manipulist是一个基于浏览器的文本/列表处理和抓取工具,由Engiweb Ltd开发。它允许用户对输入文本执行多种操作,以实现所需的输出文本。用户只需通过网页浏览器访问,无需下载任何软件或应用程序。
Open in ChatGPT 是一款Chrome扩展,允许用户将选定的文本直接在ChatGPT中打开,并附加自定义提示。用户只需右击所选文本,从上下文菜单中选择'在ChatGPT中打开'选项,即可快速使用。