SearchArray是一个基于Pandas的扩展数组,提供了词法匹配功能(如BM25),可以将Pandas的字符串列转换为词项索引,从而实现高效的短语和单词评分。
这是一个自动化机器学习系统,利用O1和Claude AI模型迭代开发、改进和优化机器学习解决方案,在Kaggle Spaceship Titanic挑战中实现了前1%的性能。
一个利用代理框架进行视觉任务的库,能够快速生成代码,帮助用户完成图像识别任务,简化视觉问题的解决过程。
Giskard是一个开源测试框架,专为生成式AI和机器学习模型设计。它集成了130多种评估指标,支持自动化检测生成内容的事实性、安全性及合规性。Giskard可以处理从表格模型到大型语言模型(LLM)的所有内容,并提供企业级测试中心,支持自托管和云部署。它还与Hugging Face、MLFlow、Weights & Biases等平台无缝集成,帮助团队更快、更好地交付机器学习产品。
大型语言模型(LLM)的chat模板,用于支持transformers的chat_template功能,旨在为不同模型提供一致的输入格式,提供了多个流行模型的示例模板。该项目为开发人员提供了便捷的工具,简化了与不同语言模型的交互流程,确保输入格式的一致性,提高了开发效率。
Tonic Validate Metrics 是一个开源的评估指标包,旨在为生成模型的输出提供多种评估指标,支持模型性能对比,易于集成到机器学习工作流,并兼容多种数据格式和输入类型。
tiktoken 是一个用于处理文本的开源工具,专为 OpenAI 的大型语言模型(LLM)设计,能够高效地将文本转换为 token,并支持多种编码方式,兼容不同的 OpenAI 模型。它还提供了批量处理能力,便于用户进行大规模数据的处理和分析。
torchrecipes是一个基于PyTorch的工具包,提供一套标准且广泛支持的蓝图,帮助机器学习工程师快速训练模型,使用最新的研究技术,降低工程开销。
Whisper Turbo 是 Open AI 开源的一个新型 Whisper turbo 模型,基于 Large v3 模型的蒸馏,显著提高了运行速度和效率。该模型在保持高准确度的同时,提供了更佳的显存使用效率,适用于多种音频处理任务。
为研究人员提供在HuggingFace数据集上微调Qwen 2视觉语言模型的脚本集合,支持通过Gradio网页界面和命令行进行模型训练,具有交互式训练和批量处理功能。
文本相似度(匹配)计算,提供Baseline、训练、推理、指标分析等功能,支持TensorFlow和Pytorch两个版本,适合不同需求的开发者使用。