OneDiff是一个用于加速扩散模型的工具,提供了一种新的免训练、几乎无损的范式,显著提升模型的迭代速度。
解释性大语言模型(LLM)的综述论文,强调了在LLM中增强可解释性的必要性,并讨论了现有解释性方法的应用,以改善模型的透明度和可靠性。
这个开源项目是一个生成式AI模型优化赛的参赛方案,获得了天池NVIDIA TensorRT Hackathon 2023初赛的第三名。该项目的功能涉及到开源、机器学习等领域。
一个完整的管道,用于在消费级硬件上使用LoRA和RLHF微调Vicuna LLM。该项目实现了基于Vicuna架构的RLHF(强化学习与人类反馈),基本上是ChatGPT的变种,但使用Vicuna。
深度求索发布的开源代码大模型,33B版的性能显着优于现有的开源代码LLM。该项目包含多个规模的代码语言模型,从10亿到330亿标记不等,经过预训练,使用16,000标记的窗口大小和额外的填空任务,支持项目级别的代码补全和填充,在多种编程语言和各种基准测试中取得最先进性能。
JupyterLab-TensorBoard-Pro是一个TensorBoard插件,为JupyterLab提供了更完善的功能。它能将TensorBoard整合到JupyterLab中,使用户能够更方便地在JupyterLab中使用TensorBoard。这是一个开源项目,用户可以自由使用。该插件专为机器学习任务设计,可以在JupyterLab中方便地进行机器学习相关的操作和监控。
集成了 TeaCache 的 ComfyUI 插件,用于加速图像、视频和音频扩散模型的推理过程,支持多种模型,并提供了简单的安装方法和推荐配置
MisguidedAttention是一个集合,旨在利用误导信息挑战大型语言模型的推理能力,主要通过修改经典思维实验和谜题来检验模型的鲁棒性。
斯坦福开发的一种遵循指令的 LLaMA 模型,基于 Meta 的 LLaMA 7B 模型进行微调,性能接近 OpenAI 的 text-davinci-003,支持在单个 GPU 或 CPU 上运行。
Thermostat是一个集合,提供多种自然语言处理(NLP)模型的解释及其分析工具,帮助用户深入理解模型的决策过程及性能评估。
本文介绍了扩散状态空间模型,这是一种用更可扩展的状态空间模型作为基础的架构,取代了传统方法。这种方法可以有效处理更高分辨率的图像,而无需进行全局压缩,从而在整个扩散过程中保留了图像的详细表征。
这是一个完整的管道,用于在消费硬件上使用LoRA和RLHF微调Alpaca LLM。基于Alpaca架构实现人类反馈的强化学习(RLHF),基本上是ChatGPT的一个变体,但使用的是Alpaca。
LLMOps是一个灵活、稳健且高效的Python工具包,专为大型语言模型(LLM)的运营设计。它提供了模型注册、实验跟踪和实时推理等关键功能,帮助开发者和研究人员更好地管理和优化他们的模型。该工具包支持高效的操作,并具备灵活的集成能力,适用于各种机器学习工作流。
赤兔量化注意力:专注于量化注意力机制的高效 GPU 实现库,旨在加速长序列数据的处理速度,并且与 Long-Context-Attention 库无缝集成
一个极简的图像处理和GPT/Diffusion模型训练工具,专注于快速实验和简洁操作,提供从初始化到图像生成的高效路径
利用torchao和diffusers优化扩散模型的端到端方案,支持推理和FP8训练,旨在提升模型的性能和效率。
Transformer语言模型域自适应工具包,用于将基于Transformer的语言模型适应于新的文本领域。该工具包支持多种预训练模型,并提供灵活的配置选项,使得用户能够轻松调整和评估模型在特定领域的表现,从而有效提升自然语言处理任务的效果。