OpenCoder-llm/opc_data_filtering开源 – 代码预训练语料库的启发式过滤框架

OpenCoder-llm/opc_data_filtering 是一个专为大规模代码预训练语料库设计的启发式过滤框架，旨在通过精确的规则过滤和清洗代码数据，确保用于训练大型语言模型（LLM）的数据质量。该框架包含超过100条过滤规则，支持多种编程语言，并易于扩展以适应不同数据集。它作为 OpenCoder 项目的一部分，主要用于代码数据的预处理，提升模型在代码相关任务上的表现。

OpenCoder-llm/opc_data_filtering的特点:

1. 超过100条过滤规则，用于精确清洗代码数据
2. 灵活的规则配置，支持多种编程语言（Python、C、C++、C#、Java、JavaScript、Go、HTML等）
3. 易于扩展，可快速适应不同数据集
4. 包含自然语言过滤规则、通用代码过滤规则和特定于语言的过滤规则
5. 支持基于文件大小、行数、变量数量、平均函数长度等多种指标的过滤
6. 针对不同编程语言的特性进行定制化过滤（如Python的AST解析检查）

OpenCoder-llm/opc_data_filtering的功能:

1. 用于代码LLM训练前的数据预处理，提升数据质量
2. 过滤和清洗代码数据，移除非信息性、低质量或结构不良的文件
3. 支持多种编程语言的代码数据清洗，适用于多语言代码数据集
4. 可扩展用于自定义代码数据集的过滤规则
5. 集成在OpenCoder项目的数据处理管道中，用于准备训练数据
6. 参考OpenCoder项目的论文和GitHub文档，调整框架以适应特定需求

相关导航

vectara-answer开源项目 – 基于LLM的自定义对话AI

使用 Vectara 由LLM 提供动力的对话 AI，可自定义和部署预构建的会话搜索用户界面，用于连接到 Vectara 中导入的数据。该项目旨在增强用户与数据的互动体验，提供灵活的搜索和对话功能。

FlowSep开源项目 – 基于语言查询的智能音频分离

FlowSep是一个基于语言查询的声音分离模型，通过语言描述分离音频中的特定声音，使音频处理变得更加智能。该项目利用Rectified Flow Matching技术，实现从噪声到目标声音的高效生成，并在多个基准测试中超越现有最佳模型。FlowSep提供简单易用的推理代码，支持自定义音频和文本查询，适用于多种音频处理场景。

Hackerman.AI官网 – AI辅助编程技能练习平台

Hackerman.AI是由Michael Sjöberg创建的创新平台，用户可以通过AI生成的程序来练习编程技能。用户可以免费生成程序或粘贴自己的程序进行练习。平台提供‘提示’和‘解释’按钮，帮助用户更好地理解编程知识。用户可以通过填写生成程序中的TODO来进行实践学习。

Lightning Whisper MLX开源项目 – 专为Apple Silicon优化的极速Whisper实现

Lightning Whisper MLX 是一个专为 Apple Silicon 优化的 Whisper 实现，使用 MLX 框架，显著提升了 Whisper 任务的速度，比其他实现快 10 倍，比当前 MLX 实现快 4 倍。

Func Runner官网 – 为OpenAI助手提供的托管函数调用服务

Func Runner是一个专为OpenAI助手设计的受管函数调用服务提供商。它使开发者能够轻松集成和调用各种功能，提供灵活的API接口，支持多种编程语言，旨在提升AI助手的功能和响应能力。

Divi AI官网 – 强大的AI工具，简化网站创建

Divi AI是一个强大的工具，完美集成于Divi WordPress主题和构建器，通过先进的AI能力彻底改变网站创建过程，提升效率和效果。

Prompt开源项目 – 与OpenAI ChatGPT互动的命令行工具

Prompt是一个简单易用的命令行工具，让用户能够与OpenAI的ChatGPT进行互动。无论是探索新话题、进行轻松对话，还是深入讨论，它都提供了流畅且直观的体验。

tauri2-svelte5-shadcn开源项目 – 现代桌面应用开发模板

一个现代化的桌面应用开发模板，完美集成了Tauri 2、Svelte 5和Shadcn-svelte三大框架，旨在提供高效、便捷的跨平台开发体验。

LLM-WikipediaQA开源项目 – 维基百科文档问答系统

在维基百科文章上运行文档问答(Q&A)任务，使用LangChain作为问答框架，使用OpenAI和HuggingFace模型进行嵌入和语言模型微调。该项目旨在提高用户在维基百科上查找信息的效率，通过自然语言处理技术，为用户提供准确的答案。

ThinkDiff开源项目 – 多模态上下文推理的扩散模型

ThinkDiff是一个创新的扩散模型，通过将视觉语言模型与大型语言模型解码器对齐，简化了训练过程，并显著提升了生成图像的质量和多模态上下文推理能力。该项目在CoBSAT基准测试中取得了显著的准确率提升，仅需5小时训练，且仅使用普通图像-文本对进行训练，无需复杂的多模态数据集。

kolo开源项目 – VSCode 中的 Django 实时监控工具

kolo 是一款集成在 VSCode 中的工具，允许开发者在不离开开发环境的情况下，实时监控和查看 Django 应用程序的运行状态。它提供了详细的应用程序运行信息，支持调试和问题排查，帮助开发者更高效地开发和维护 Django 项目。

SynCLR-无需真实数据的虚拟表征学习

SynCLR是一种完全从合成图像和合成描述学习虚拟表征的方法，无需任何真实数据。它能够与OpenAI的CLIP在ImageNet上的传输效果一样好，利用合成数据获取高质量表征，适用于大模型训练中的偏好标记。

Cosmos-Transfer1开源 – NVIDIA开发的虚拟世界生成AI模型

Cosmos-Transfer1是NVIDIA Cosmos世界基础模型系列中的一员，专注于通过多模态输入生成高度可控的虚拟世界，主要用于机器人和自动驾驶车辆的Sim2Real（从模拟到现实）训练。该模型支持多种输入模式如分割图、深度图、LiDAR扫描等，并具备自适应空间控制和4K视频上采样功能，参数规模为7B，适配80GB H100硬件。

GLM-PC官网 – 自动驾驶AI工具，简化日常计算机操作

GLM-PC是由智谱公司开发的一种基于计算机的自动驾驶AI工具，旨在通过自动化技术简化日常计算机操作。它可以处理如查询信息、总结文档和安排会议等任务，支持多种应用场景，包括信息发送、会议参与、文档处理和网页总结。目前处于测试阶段，基于多模态模型CognAgent，探索“无人驾驶”PC技术，以执行各种计算机操作。

JAX开源项目 – Google开发的数值计算库

JAX是由Google开发的开源数值计算库，专为研究者和开发者设计，结合了数值计算和机器学习。它支持自动微分与硬件加速，在Transformer模型训练中性能较PyTorch提升30%，广泛应用于AlphaFold等前沿研究。JAX通过XLA编译器优化计算图，支持并行计算和动态控制流，使代码既高效又灵活。

暂无评论

暂无评论...