一个 Python 库,用于创建和处理自然语言处理 (NLP) 数据集,以便训练大型语言模型 (LLM)。该库包含一些可扩展的模块,允许 NLP 研究人员从无标注 Web 采集高质量文本,并提供 GPU 加速功能。
flyscrape是一个用Go语言编写的网站爬虫,提供独立可定制的Web抓取功能,结合了Go语言的高效性能和JavaScript的灵活性,具有易于配置和稳定运行的优点,适合各种数据抓取需求。
Reworkd AI是一个强大的工具,旨在通过AI代理在大规模下提取网页数据。无须开发者即可使用,适用于多种行业,帮助用户高效获取所需信息。用户可以通过加入候补名单开始使用该工具,提升数据收集的效率和准确性。
由vivo AI全球研究院自主研发的大规模预训练语言模型,具有更大量的优质数据、更优的效果及长文本支持。
TinyLLaMA是一个专为轻量语言模型设计的开源框架,为开发者提供在资源受限环境下构建高效模型的工具。
DinkyTrain是普林斯顿大学NLP团队基于fairseq构建的预训练库,集成了DeepSpeed内核,旨在提供高效的模型训练和简化的训练过程,支持灵活的配置选项。
UniFab Video Enhancer是一款采用AI技术的视频增强工具,能够将低分辨率视频提升至惊人的4K甚至8K画质,适合视频创作者、电影爱好者及任何希望提升视频内容质量的人。该工具提供了AI降噪、细节恢复等功能,全面改善视频的清晰度、色彩保真度和整体质量。
InstantLLM是一个移动应用和Python包,旨在通过简单的几行代码,实现语言模型的快速和轻松集成。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型