Planetarium是一个用于评估大型语言模型将自然语言描述的规划问题转换为PDDL的基准测试工具,具备图同构的比较方法,旨在帮助研究人员分析和提升模型的性能。
收集和梳理垂直领域的开源模型、数据集及评测基准,方便研究人员和开发者使用。
该项目总结了大语言模型的微调技术,探讨了指令微调和对齐微调的方法,旨在提升模型在特定任务上的表现。
flash-attention是一个基于FlashAttention优化的Transformer实现,其训练速度在GPT2和GPT3上比Huggingface的实现快3-5倍,显著提升了训练效率,同时优化了内存使用,并支持多种硬件加速。
LangSmith是一个旨在帮助开发者缩小原型与生产之间差距的平台,专为构建和迭代能够利用大型语言模型(LLMs)的产品而设计,既能发挥其强大能力,又能应对其复杂性。
拓扑机器学习教程:面向从业者的拓扑方法,利用代数拓扑技术分析复杂数据结构,捕捉传统机器学习方法可能无法捕捉的特征
TransferAttack是一个基于PyTorch的框架,旨在提升图像分类中的对抗性传递性,提供评估和攻击模型的功能,并对已有的传递性攻击进行分类和评估。
Aide.dev 是一款创新的AI工具,旨在提升开发者的编码体验,通过智能的代码补全和实时聊天支持,使编码过程更加高效和互动,同时确保代码隐私。
Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
PRM800K是一个用于训练过程监督奖励模型(PRM)的数据集,旨在提高大型语言模型在复杂推理任务中的准确性,尤其是在数学问题上。该数据集包含800K个步进级标签,覆盖12K个问题的75K个解决方案,使用主动学习技术选择最具信息量的数据样本进行人工注释,从而提供细粒度反馈,通过评估中间推理步骤来改进结果,最终提高解决率,从42.5%提升到78%在MATH数据集子集上。
该项目是一个关于自然语言处理(NLP)数据增强的文献集,收录了多篇相关研究论文和技术资源,旨在为研究人员和开发者提供最新的NLP数据增强方法和应用实例,促进相关领域的研究和开发。