一个用于评估稀疏自编码器(SAE)模型性能的工具,提供了8种不同的评估方法,帮助研究人员和开发者更好地理解和优化SAE模型。
该项目提供了Vision Transformer在Tensorflow中的完整实现,支持多种数据集和任务,易于扩展和修改,并包含详细的使用示例和文档,帮助用户快速上手并深入了解模型的应用与性能。
LaMini-LM是一个对多个迷你大语言模型进行微调的项目,旨在提升模型的性能,其中包括经过微调的GPT-2,其性能可与LLaMa的Alpaca-7B相媲美。
该研究发现,在计算限制范围内,LLM(高达90亿参数)经过四轮训练后,新数据带来的收益微乎其微,增加资源的收益有限。对于嘈杂的数据集,数据过滤的效果更为显著。
关于算法代码生成的数据集,具有更大规模、更高质量和更精细标签的特点,旨在提供一个更具挑战性的训练数据集和评估基准,用于代码生成模型领域
BIG-Bench是一个用于评估神经网络模型性能的基准测量工具,旨在提供全面的评估方法,通过多个任务和指标来衡量AI模型的能力。
字节跳动提供 DeepSeek R1、OpenAI o1、GPT-4o、Claude 3.5 和 Gemini 1.5等领先大模型