Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
StructuredRAG是一个用于评估大型语言模型(LLM)遵循响应格式指令能力的六个任务基准,旨在研究不同提示策略对模型性能的影响,并提供复杂任务的性能评估。该项目还包括开源实验代码和结果,方便研究人员进行进一步探索。
用于评估和理解大型语言模型的统一评估框架,提供了用户友好的API,方便研究人员进行模型性能评估、提示工程和对抗提示攻击评估等。
SuperCLUE是一个针对中文大模型的综合性基准测试平台,提供标准化的评估指标和多任务测试能力,旨在帮助研究者评估和比较中文大模型的性能。
DeepMark是一款基准测试工具,旨在评估大型语言模型(LLM)在特定任务指标和自定义数据上的性能,帮助开发者理解模型的表现并优化其在不同场景下的应用。
该论文探讨了语言模型在反事实任务中的能力和限制,揭示了它们在抽象推理方面的表现及其依赖的任务解决程序。
FlowGPT是一个强大的聊天提示库,提供多样化的ChatGPT提示,帮助用户找到最佳提示以增强沟通效率。用户可以根据不同类别浏览提示,如聊天、角色、编程、市场营销、学术、求职、游戏、创意、提示工程、商业和生产力,并可使用关键词搜索特定提示。找到合适的提示后,用户可以将其复制到ChatGPT界面或应用中使用。
LLMOps是一个灵活、稳健且高效的Python工具包,专为大型语言模型(LLM)的运营设计。它提供了模型注册、实验跟踪和实时推理等关键功能,帮助开发者和研究人员更好地管理和优化他们的模型。该工具包支持高效的操作,并具备灵活的集成能力,适用于各种机器学习工作流。
Toronto Warehouse Incremental Change Dataset 是一个新发布的数据集,来源于清晰路径机器人仓库,旨在提供增量感知数据,支持机器人导航和环境理解的研究。
Imagen是一个文本到图像的扩散模型,具有极高的真实感,利用大型变换器语言模型来理解文本并生成高保真图像。它在COCO数据集上取得了7.27的最先进FID分数,并在样本质量和图像-文本对齐方面被人类评审者优先选择。
《解构大语言模型:从线性回归到通用人工智能》配套代码,提供了大语言模型的实现与分析,展示了线性回归与语言模型之间的关系,并支持多种数据集与训练配置,易于扩展与自定义。
一个魔改版的llama2.c,旨在利用1998年的计算机硬件(Intel Pentium II CPU + 128MB RAM)在Windows 98系统上运行大模型。
GpTea是一个综合性的ChatGPT提示平台,提供丰富的提示库,供AI爱好者连接与合作。用户可以浏览、选择和定制提示,同时参与活跃的AI社区,进行讨论和学习。
本项目对零阶优化技术进行了基准研究,重点关注在微调大型语言模型时的内存效率。
该项目研究了prompt在不同下游任务和不同类型、规模的预训练语言模型之间的迁移性,探索其在零样本设定下的有效性、对其他模型的适用性以及对训练速度的提升,并分析了影响迁移性的因素。