JADE-Database是面向国内开源和国外商用大模型的Demo数据集,包含多种自然文本数据,覆盖多个问题类型,旨在用于大模型的靶向安全评测。
该项目提供多种卫星和航空图像的数据集,支持深度学习模型的训练和评估,包含丰富的数据集信息和元数据,适用于不同的计算机视觉任务,如图像分类、目标检测等。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。
关于算法代码生成的数据集,具有更大规模、更高质量和更精细标签的特点,旨在提供一个更具挑战性的训练数据集和评估基准,用于代码生成模型领域
LaMini-LM是一个对多个迷你大语言模型进行微调的项目,旨在提升模型的性能,其中包括经过微调的GPT-2,其性能可与LLaMa的Alpaca-7B相媲美。
Robi AI是一家前沿的人工智能初创公司,致力于通过创新技术转变各个行业并增强人类体验。我们的专家团队专注于开发能够自我学习、适应和改进的AI解决方案。
Amazon Foundation Model Evaluations Library,用于评估大型语言模型(LLMs),帮助选择最适合您用例的LLM。该库提供多种评估功能,覆盖开放式生成、文本摘要、问答和分类任务,旨在帮助用户全面了解不同模型在特定任务上的表现。
LLMSurvey是一个提供LLaMA模型族进化图的项目,用户可以通过该工具查看不同版本模型的性能,比较多种模型参数,并获取相关的训练和评估数据。
这是我在伯克利带的本科生Peter Tong去New York University师从Xie Saining和Yann LeCun后对目前所有主要大模型进行系统研究测试的最新工作。
这篇论文认为,幻觉并非偶然错误,而是大模型的底层数学和逻辑结构的必然结果。通过计算理论和哥德尔不完备定理,证明幻觉在LLMs的每个阶段都不可避免。