Phi-3模型 – 高性能小型语言模型

Phi-3 是由微软开发的一组小型语言模型，旨在以紧凑的形式提供高性能，特别适合在移动设备上运行。该系列包括多个模型，如 Phi-3 Mini、Phi-3 Small 和 Phi-3 Medium，每个模型具有不同的参数数量和能力，涵盖从 38 亿到 140 亿参数的范围。Phi-3 系列在语言理解、推理和编码任务中表现出色，采用‘课程学习’方法进行训练，逐步从简单任务过渡到复杂任务。某些模型如 Phi-3.5-Vision 还支持多模态任务，处理图像和文本输入。

Phi-3的特点:

1. 小型化设计：模型参数从 38 亿到 140 亿不等，适合在各种设备上部署，包括手机。
2. 高性能：尽管体积小，这些模型在语言理解、推理和编码任务中的表现可与 GPT-3.5 等大型模型媲美。
3. 训练方法：使用 3.3 万亿个标记的大规模数据集训练，采用‘课程学习’方法，从简单任务逐步过渡到复杂任务。
4. 多模态能力：某些模型如 Phi-3.5-Vision 支持图像和文本输入，增强了其应用场景。

Phi-3的功能:

1. 可通过 Hugging Face 下载和使用。
2. 可集成到应用程序中以提供 AI 辅助。
3. 适合各种自然语言处理任务，如聊天机器人、文本总结和代码生成。
4. 建议用户验证生成的任何代码或 API 使用，因训练数据的范围有限。

相关导航

DCLM-7B开源项目 – 苹果开源的大型语言模型

DCLM-7B是由苹果开源的一个大型语言模型，其能力接近LLaMA3 8B。该项目完全开源，包括模型和数据集，但上下文长度限制为2K。该模型在Huggingface上提供，适用于多种自然语言处理任务，如文本生成、翻译和问答。此外，它还可作为基础模型进行微调以适应特定任务，并在研究和开发中用于探索大型语言模型的性能。该项目也适用于教育和学习目的，帮助理解大型语言模型的工作原理。

RWKV Infinite Context trainer开源项目 – 支持长上下文训练的高效工具

RWKV Infinite Context trainer 是一个用于训练任意上下文大小的工具，能够处理超过10k的上下文长度，同时在几乎恒定的VRAM内存消耗下运行。

SharePoint Agents官网 – SharePoint的AI助手

SharePoint Agents是Microsoft 365 SharePoint中的AI工具，旨在提供基于站点内容的自然语言回答和洞察。每个SharePoint站点默认包含一个现成智能体，用户可通过单次点击创建定制智能体，仅访问选定的信息，支持知情决策。它能够回答问题、总结内容、分析文档，加速内容发现，并支持多种使用场景，如新员工培训、销售演示案例研究等。

LLaDA – Large Language Diffusion Model – 快速大型语言扩散模型

LLaDA是一个大型语言扩散模型，目前模型大小为8B BF16。尽管在测试中表现一般，但其运行速度非常快，显示出巨大的发展潜力。该项目可在Hugging Face平台上在线体验，适用于多种自然语言处理任务。

ChatBoo官网 – 让AI触手可及的聊天应用

ChatBoo是一款利用前沿技术的AI聊天机器人应用，旨在理解自然语言并提供相关信息，为用户创造友好和直观的互动平台。

makeMoE开源项目 – 稀疏专家混合语言模型实现

makeMoE 是一个从头开始实现的稀疏专家混合语言模型，基于 PyTorch 框架，采用自回归字符级语言模型架构。该项目灵感来源于 Andrej Karpathy 的 makemore 项目，旨在通过稀疏专家混合架构实现高效的语言模型训练和推理。它涵盖了模型的基本组成、自注意力机制、专家网络、Top-k 路由、噪声 Top-k 路由等核心组件的代码实现，并提供了模型的初始化方法、训练循环以及文本生成示例。makeMoE 不仅适用于研究和学习稀疏专家混合语言模型的实现，还可作为自回归字符级语言模型的参考实现，适用于自然语言处理领域的实验和开发。

Transformers Domain Adaptation开源项目 – Transformer模型的域自适应工具

Transformer语言模型域自适应工具包，用于将基于Transformer的语言模型适应于新的文本领域。该工具包支持多种预训练模型，并提供灵活的配置选项，使得用户能够轻松调整和评估模型在特定领域的表现，从而有效提升自然语言处理任务的效果。

Instella开源项目 – AMD开源高性能语言模型

Instella是AMD推出的开源高性能语言模型，旨在为开源AI研究和应用提供强大支持。该项目基于AMD Instinct™ MI300X GPU进行训练，充分利用硬件优势，提供卓越的性能和完全开源的模型权重、训练代码及数据。

智谱清言官网

智谱清言是由清华大学计算机系技术成果转化而来的公司,致力于打造新一代认知智能通用模型。公司合作研发了双语千亿级超大规模预训练模型GLM-130B。

openlogprobs开源项目 – 提取语言模型的下一token概率

openlogprobs是一个Python API，旨在通过语言模型API提取完整的下一token概率。它通过使用logit偏置来逆向工程标记的对数概率，支持topk搜索和精确解算法，从而有效提取语言模型API的完整概率向量。

Prompt Engineering Methods-大型语言模型的提示工程方法概述

本项目对大型语言模型在不同自然语言处理任务中的提示工程方法进行了调查，展示了如何在不需要大量参数重训练或微调的情况下，增强模型能力，并使非深度学习背景的用户能够与大型语言模型进行交互。同时总结了基于NLP任务的各种提示技术，并分析了在不同数据集上的性能表现。

exploraNote官网 – 数字助手，助力探索性测试

exploraNote是一个数字助手，旨在帮助手动测试人员在探索性测试过程中组织笔记、生成结构化报告，并利用自然语言处理技术建议关注领域。它使测试人员能够在测试会话中捕捉笔记，实时获取建议，并自动生成详细、可操作的报告。

kimi-k1.5开源项目 – 多模态思考模型，超越SOTA

kimi-k1.5 是月之暗面发布的多模态思考模型，具有强大的数学、代码、视觉多模态和通用能力，在短思考和长思考模式下均超越了多个 SOTA 模型。

OPUS MT官网 – 开源翻译模型，支持中英文互译

OPUS MT是赫尔辛基大学开发的开源翻译模型，专门用于将中文prompt翻译成英文prompt。它基于先进的神经机器翻译技术，支持多种语言之间的翻译，易于使用和集成，适合各种自然语言处理应用。

Mirageml官网 – 企业资产搜索工具

Mirageml是一个企业资产搜索工具，通过消除手动标记、过滤器或无限滚动的需求，提升公司的资产库。它通过理解自然语言提供人类级别的响应，彻底改变用户搜索资产的方式。

暂无评论

暂无评论...