Tonic Validate Metrics 是一个开源的评估指标包,旨在为生成模型的输出提供多种评估指标,支持模型性能对比,易于集成到机器学习工作流,并兼容多种数据格式和输入类型。
TaxEval 是一个专注于税务领域的语言模型评估工具,支持多种评估指标并提供详细的评估报告,便于集成到现有的税务应用中。
LLMEVAL-2 是一款专为评测中文大语言模型性能而设计的工具,支持多种评测指标和方法,提供易用的接口和文档,集成了多种预训练模型,并允许用户自定义评测任务。
这是一个自动化机器学习系统,利用O1和Claude AI模型迭代开发、改进和优化机器学习解决方案,在Kaggle Spaceship Titanic挑战中实现了前1%的性能。
提供一种 Pythonic 方式在 LLM 管线上运行离线评估,以便轻松投入生产
Open-R1是一个开源项目,旨在完整复现DeepSeek-R1的技术框架,并推动社区协作进一步完善。该项目提供了全面的模型训练、评估和数据生成工具,支持多种硬件加速,旨在帮助研究人员和开发者轻松复现和扩展R1模型。
SearchArray是一个基于Pandas的扩展数组,提供了词法匹配功能(如BM25),可以将Pandas的字符串列转换为词项索引,从而实现高效的短语和单词评分。
LLMPruner是一款专为大语言模型设计的裁剪工具,旨在优化模型性能并减少其参数量。它支持多种模型架构,并提供可视化工具,方便用户了解模型结构和裁剪效果,易于与现有机器学习工作流集成。
SpaceSerp 是一款强大的 API,能够实时提取 Google 搜索结果,监控品牌或产品提及,支持多种格式(JSON、CSV、HTML),并可从任何位置和设备收集数据。其系统基于先进的 AI 模型,具有高效、灵活的特点。
截至目前,国内已经有了个 188 大语言模型,LLMs-In-China 收录了中国境内的多种大语言模型信息,提供模型的基本参数和性能指标,包含模型的使用案例和应用场景,并支持用户提交新的模型信息。
这是一个关于科学大型语言模型(Sci-LLMs)的全面调查,重点关注生物学和化学领域,提供深入的分析与比较,以助于研究人员更好地了解和应用这些模型。
GPT Status是一个社区仪表盘,用户可以实时跟踪OpenAI API的可用性和性能,获取不同GPT模型的响应时间等信息,保持对这些模型性能的更新。
openagent是一个模块化组件库和编排框架,受到微服务方法的启发,为开发人员提供构建强大、稳定和可靠的人工智能应用程序和实验性自主智能体所需的所有组件。它支持易于扩展和维护的设计,提升了系统的可伸缩性,适用于构建复杂的AI应用和自主智能体。
pyllms是一个用于与大型语言模型交互的Python库,提供了对多种模型的统一接口,简化了模型的调用和管理过程,同时支持模型的性能评估和比较。
一个基准测试工具,用于研究和评估开源大型语言模型在软件工具操作方面的能力,提供了多样化的软件工具和易于使用的基础设施,可以直接评估每个模型的执行成功率。
Hamilton是一个可扩展的通用微框架,用于定义数据流。您可以使用它构建数据框、numpy矩阵、Python对象、机器学习模型等。
《解构大语言模型:从线性回归到通用人工智能》配套代码,提供了大语言模型的实现与分析,展示了线性回归与语言模型之间的关系,并支持多种数据集与训练配置,易于扩展与自定义。
Analytiqus是一个综合性的商业分析与机器学习平台,能够连接多种数据库,使用交互式图表可视化数据,执行特征工程,并利用流行的机器学习模型如RNN、LSTM和CNN。