Confident AI是一个综合性的LLM评估平台,提供14种以上的指标来运行LLM实验,管理数据集,监控并整合人类反馈,以自动改进LLM应用。它与DeepEval协作,支持任何用例。
VerifAI的MultiLLM是一个开源框架,通过并行调用多个大型语言模型(LLM)并对其输出进行排名,以找到最佳结果(真实值)。该框架可扩展以支持新的LLM和自定义排名函数,从而评估来自不同LLM的多样化输出。
这是一个关于大型语言模型(LLM)选项的全面集合,提供了分类清晰的资源列表,便于用户查找和使用。该项目定期更新,包含新的模型和工具,同时接受社区贡献和建议。
LLM-Agent-Survey是一个关于基于大型语言模型(LLM)的自主智能体的文献资源集,汇聚了最新的研究和应用,提供详细的文献综述与分析,支持多种LLM模型和框架的比较,包含自主智能体的设计与实现示例。
SurfSense 是一款个人 AI 助手,旨在帮助用户记录和检索他们在互联网上看到的内容,包括社交媒体、聊天记录、日历邀请、重要邮件、教程和食谱等。通过跨浏览器扩展程序,它能提供便捷的记录与检索功能,支持本地 LLM,并且是开源的,用户可以选择自行部署。
旨在开发并开源大型语言模型的对齐技术,包括监督微调(SFT)、奖励模型(RM)、拒绝采样和人类反馈强化学习(RLHF)等。
Chat UI是为大型语言模型(LLM)应用设计的聊天界面组件库,提供预构建的聊天组件,支持高度定制化,易于与各种LLM后端进行集成,帮助开发者快速构建用户友好的聊天界面。
Log10 AI 是一款开创性的工具,通过先进的 AI 技术提升大型语言模型的性能,专注于优化模型的准确性和可靠性,特别适用于 AI 开发者和企业。
llama2.scala是Andrej Karpathy的llama2.c在Scala 2中的移植,提供了一种在一个文件中实现Llama 2推理的方式。
Adaptive是一个先进的AI工具,旨在改变企业利用大型语言模型(LLMs)的方式。它提供了一整套工具,通过强化学习技术对开放模型进行微调和部署,增强其性能,确保满足特定的业务需求,同时保护用户隐私。Adaptive特别适合希望通过优化模型适应性、快速推理和基于实时反馈的持续改进来提升生成AI能力的企业。
MIMIC-IT:多模态上下文指令调优,展示了一个包含 280 万个多模态指令-响应对的数据集,以及从图像和视频中派生的 220 万个独特指令。
AgentBench是一个多维演进基准,评估语言模型作为Agent的能力,包含8个不同环境,专注于LLM在多轮开放式生成场景中的推理和决策能力。
该项目旨在提高AI训练数据集的透明性、文档化和负责任使用,详细记录数据集的来源和元数据,确保数据在使用过程中的合法性和合规性。