LongRoPE项目旨在将大型语言模型的上下文窗口扩展至超过200万Tokens,显著提升长文本处理能力,同时保持原始短上下文窗口的性能。它通过引入有效的搜索识别和位置插值,以及采用渐进扩展策略,在256k训练长度内仅需1k微调步骤,从而实现高效的模型训练与优化。
BiPE (Bilevel Positional Encoding) 旨在通过双层位置编码技术,提高模型在处理不同输入长度时的预测能力,尤其适用于序列建模任务。该项目通过增强位置编码的表达力,从而改善模型在长文本和变长输入上的性能。
EasyContext 是一个用于内存优化和训练配方的项目,旨在将语言模型的上下文长度扩展到100万令牌,同时对硬件要求最小化。该项目提供了多种方法来提升模型性能,并兼容现有技术的实现,帮助开发者在资源有限的情况下有效地进行模型训练。
Late Chunking是一种改进长上下文嵌入模型中上下文保存的技术,旨在提高检索准确性,尤其是对于较长的文档。通过保持跨块的上下文信息,该技术能够在处理长文本时显著提升信息检索的质量。
GPU Finder是一个网站,帮助客户发现来自全球公共云提供商的可用GPU实例。它提供了不同云提供商提供的各种GPU、GPU服务器和GPU计算平台的信息。
该项目专注于对独立成分进行对齐,以改善多任务学习的效果。通过利用独立成分分析技术,提升多任务学习场景中的性能,适用于多种机器学习任务。
一种优化视觉语言提示上下文的方法,通过知识引导提升交互效果。
本项目提供与大型语言模型(如OpenAI的GPT-4)互动的技巧和窍门,帮助用户设计有效的提示,并优化模型的响应质量。
Baichuan-13B 是由百川智能继 Baichuan-7B 之后开发的包含 130 亿参数的开源可商用的大规模语言模型,在权威的中文和英文 benchmark 上均取得同尺寸最好的效果。