PandaX 是一个基于 Go 语言和 VUE3.0 前端技术的物联网开发平台,旨在简化物联网应用的开发流程。它提供现成的模块和组件,支持拖拽配置快速搭建应用,涵盖设备管理、数据处理、大屏展示、报表生成等功能,兼容多种数据库和协议。该平台显著提高了开发效率,使原本需要 10 人月完成的项目,现在只需 1 人 3 天即可完成。
stdlib 是一个专为 JavaScript 和 Node.js 设计的标准库,专注于数值和科学计算。它提供了一系列强大且高性能的库,涵盖数学、统计、数据处理和流等领域,旨在为 Web 上的数值计算提供坚实的基础。stdlib 的独特之处在于其完全可分解的架构,允许开发者根据具体需求自由组合和替换 API 及功能。
Awesome Stream Processing 是一个展示如何使用流处理解决实际问题的示例集合。它提供了从基础到复杂场景的丰富示例,涵盖了与多种数据平台的集成,如 Kafka 和 PostgreSQL。无需集群,仅需一台笔记本即可运行。
ML Clever 是一个无代码平台,旨在简化企业的机器学习流程。用户无需编程经验即可上传数据、创建管道并获得洞察。该平台提供自动机器学习(AutoML)功能、可定制的AI管道以及拖拽式分析仪表板,专注于为非技术用户提供强大的数据处理和模型部署工具。
PengChengStarling是基于icefall项目的多语言语音识别(ASR)模型,旨在一站式解决多语言语音识别难题。该项目支持多种语言,提供从数据处理到模型部署的完整流程,模型体积小且推理速度快,适用于多种应用场景。
Huggingface 开源的一个项目,具备自主网页导航、页面滚动和搜索、文件下载和处理、数据计算等能力。该项目旨在简化自动化网页浏览和数据采集的过程,支持复杂的数据处理任务,帮助用户高效地完成数据分析与计算。
3FS是一种高性能分布式文件系统,专门设计用于解决AI训练和推理工作负载中的挑战。它利用现代SSD和RDMA网络,提供高达6.6 TiB/s的聚合读取吞吐量,并支持强一致性语义,简化分布式应用的开发。3FS在180节点集群中表现出色,在GraySort基准测试中达到3.66 TiB/分钟的吞吐量,每个客户端节点的KVCache查找峰值吞吐量超过40 GiB/s。该系统支持多种工作负载优化,如随机访问训练样本和高效KVCache缓存,适用于大规模数据集的排序与处理、深度学习模型的训练与推理等场景。
这本书帮助读者系统地解决机器学习问题,通过“边学边编码”的方式强化对机器学习建模过程的理解,涵盖数据处理、特征工程到模型优化的全流程,并通过实际案例引导读者掌握正确的思维方式。
一个强大的Web开发工具包,让数据处理和网站构建变得轻松又高效。
NeuroBayes为机器学习中的复杂问题提供强大的贝叶斯神经网络解决方案,结合神经网络的灵活性与贝叶斯方法的严谨不确定性量化,支持全贝叶斯和部分贝叶斯神经网络,能够更好地适应不同需求,并提供异方差噪声模型以更精准地处理复杂数据。
Datasaur是一个创新的AI工具,专注于自然语言处理标注和私有大语言模型的开发。它为法律、医疗、金融服务、媒体、电子商务和政府等行业的专业人士提供精确高效的数据处理能力,帮助简化数据标注和模型训练的复杂过程。
Appsmith AI是一个创新的平台,旨在简化AI驱动应用程序的创建和部署,提升生产力和效率。它允许用户构建自定义界面并集成各种大型语言模型(LLM),以增强聊天、数据和文档分析。该平台的低代码环境使得即便是有限编码经验的用户也能轻松使用。
AUI是一个通过先进人工智能简化复杂数据交互的平台,使各种用户都能轻松进行复杂数据分析。
Xpress AI是一个创新平台,旨在简化人工智能在应用中的集成,使各类开发者都能轻松访问先进的AI功能。通过单一API提供全面的工具套件,Xpress AI显著减少开发时间,使开发者能够快速高效地整合AI特性。
为 Excel 提供使用大型语言模型(LLM)的扩展,允许用户在公式中调用 LLMs,如 ChatGPT,进行数据处理和分析
GPUDeploy是一个市场和软件解决方案,旨在以批发价格从可靠的计算提供商那里租赁低成本的按需计算资源。
LanceDB是一个开创性的工具,旨在彻底改变企业和个人处理多模态AI应用的方式。它提供强大的数据库解决方案,专门满足AI驱动环境的需求,简化了管理文本、图像、视频和音频等多种数据类型的复杂性,适用于开发者、数据科学家和商业分析师。
Vidrovr 是一个利用机器学习处理非结构化视频、图像或音频数据的视频分析平台,旨在提供商业洞察,帮助企业做出战略决策和自动化流程。
Synthify是一个开源的无代码工具,旨在简化AI数据集的创建过程。用户可以轻松构建AI数据集,连接流程,并使用预设进行任务,如JSON提取和函数调用,从而节省时间和精力。
OneTable是一个全方位的表格格式转换器,促进数据处理系统和查询引擎之间的互操作性。它支持主流开源表格式之间的双向转换,如Hudi、Iceberg和Delta Lake,简化了数据格式转换过程,提高了数据访问的灵活性。
高性能的Python计算引擎,专为数据处理和人工智能设计,能够自动并行化Python程序,无需重写代码,大幅提升计算效率
基于CLIP(Contrastive Language-Image Pretraining)的研究成果汇总项目,旨在整理和分享CLIP相关的研究进展,包括CLIP的训练方法、改进、数据处理、知识蒸馏、损失函数,以及在零样本、少样本和分类等任务中的应用。
jax-flow是一个基于JAX的流匹配算法库,旨在提供高效的流匹配解决方案,支持多种流匹配任务,并具备灵活的API设计,方便用户进行集成和扩展,适合大规模数据处理。
Nodezator是一个通用的Python节点编辑器,通过可视化连接Python函数来创建灵活的参数化行为、数据、应用程序和代码片段,同时支持将节点布局导出为纯Python代码。
FLUX 的 ID 保持项目PuLID现在已经有ComfyUI插件了,旨在增强用户在ComfyUI中的功能体验,提供更灵活的数据处理能力。
LLMs-from-scratch 是一个资源库,提供构建大型语言模型(LLM)所需的实践经验和基础知识。该项目通过逐步指导、清晰的文字、图表和示例,帮助用户深入了解LLM的内部工作原理,并创建自己的LLM。内容包括文本数据处理、注意力机制实现、模型预训练与微调等,适合初学者和进阶用户。
langchain-examples是一个由LangChain LLM框架驱动的应用程序集合,旨在展示其强大功能,涵盖多种使用场景和用例,提供易于扩展和定制的示例,适合快速原型开发和学习。
smoltropix是为xjdr的entropix采样器提供MLX端口的项目,旨在模仿JAX的实现,支持高效的采样,并且易于集成和使用。
Docling是一个高效的工具,可以将PDF文档快速转换为JSON或Markdown格式。它具备详细的页面布局理解、阅读顺序恢复和表格结构提取的能力,此外,还提供可选的OCR功能,以便处理扫描文档。
Zed是一个超结构化数据工具,提供一种新的、更简单的数据操作方式,支持实时数据处理与高效的数据可视化,适用于多种数据源的集成与查询。