Apollo是一个多语言医学模型、数据集、基准和代码的开源项目,旨在为英语、中文、法语、印地语、西班牙语和阿拉伯语提供医学领域的自然语言处理能力。
Chinese_medical_NLP是一个专注于中文医疗领域的自然语言处理项目,提供丰富的数据集、研究论文、知识图谱、语料和多种工具包,旨在促进医疗文本处理和分析的研究与应用。
LLM Playground 是一个让用户可以免费测试多种大型语言模型的在线平台。用户可以在该平台上探索和比较不同的语言模型,进行自然语言处理相关的实验和应用,帮助开发者和研究人员了解和评估各种模型的性能与特点。
一个通过模拟面试过程来评估大型语言模型(LLMs)能力的框架,让一个LLM扮演面试官的角色,通过提供反馈和追问问题来全面评估其他LLMs的能力。
ai2-olmo-eval 是一个评估套件,旨在为语言模型在自然语言处理任务上运行评估管道,提供多种评估指标和详细报告,支持扩展和自定义评估。
Graduate-Level Google-Proof Q&A Benchmark,是一个评估大型语言模型和可扩展监督机制能力的高难度数据集,包含448道选择题,旨在测试专家的准确率。