Warning: Undefined variable $main_title in /www/wwwroot/msbd/wp-content/themes/onenav/sidebar-sitestop.php on line 26
AI交流(进群备注:)

Phi-3.5-vision是由微软开发的开源多模态模型,专注于文本和视觉数据处理。它基于合成数据和精选公开数据构建,支持128K上下文长度,通过监督微调和直接偏好优化提升指令遵循和安全性。该模型参数量为42亿,包含图像编码器、连接器、投影器和Phi-3 Mini语言模型,训练数据达5000亿令牌,适用于内存/计算受限环境。
Phi-3.5-vision的特点:
- 1. 支持通用图像理解、OCR、图表和表格理解
- 2. 多图像比较和视频片段摘要功能
- 3. 轻量级设计,适合资源有限设备
- 4. 128K长上下文处理能力
- 5. 经过安全优化,拒绝敏感请求
- 6. 高性能基准测试表现(如MMMU 43.0分)
Phi-3.5-vision的功能:
- 1. 单图像提示格式:<|user|>\n<|image_1|>\n{prompt}<|end|>\n<|assistant|>
- 2. 多轮对话场景下的图像交互
- 3. 通过Azure AI Studio在线试用
- 4. 本地部署需安装PyTorch/Transformers等依赖库
- 5. 教育领域中的图文内容解析
- 6. 商业场景中的文档自动化处理
- 7. 视频关键帧提取与摘要生成
相关导航
暂无评论...