Llama 3.2-Vision 多模态大语言模型(LLMs)集合包括11B和90B大小的预训练和指令调优图像推理生成模型(文本 + 图像输入 / 文本输出)。Llama 3.2-Vision 指令调优模型针对视觉识别、图像推理、字幕生成以及回答关于图像的一般问题进行了优化。这些模型在常见的行业基准测试中优于许多可用的开源和闭源多模态模型。
模型开发者: Meta
模型架构: Llama 3.2-Vision 基于 Llama 3.1 纯文本模型构建,后者是一种使用优化的变压器架构的自回归语言模型。调优版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF),以符合人类对于帮助性和安全性的偏好。为了支持图像识别任务,Llama 3.2-Vision 模型使用了一个单独训练的视觉适配器,该适配器与预训练的 Llama 3.1 语言模型集成。适配器由一系列交叉注意力层组成,这些层将图像编码器表示输入到核心LLM中。
训练数据 参数 输入模态 输出模态 上下文长度 GQA 数据量 知识截止日期
Llama 3.2-Vision (图像, 文本)对 11B (10.6) 文本 + 图像 文本 128k 是 6B (图像, 文本)对 2023年12月
Llama 3.2-Vision (图像, 文本)对 90B (88.8) 文本 + 图像 文本 128k 是 6B (图像, 文本)对 2023年12月
支持的语言: 对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 的训练数据集比这八种支持语言更广泛。注意,对于图像+文本应用程序,仅支持英语。
开发人员可以在遵守 Llama 3.2 社区许可和可接受使用政策的前提下,对超出这些支持语言的 Llama 3.2 模型进行微调。开发人员始终应确保其部署,包括涉及额外语言的部署,是安全和负责任的。
Llama 3.2 模型家族: 令牌计数仅指预训练数据。所有模型版本都使用了分组查询注意力(GQA)来提高推理可扩展性。
模型发布日期: 2024年9月25日
状态: 这是一个基于离线数据集训练的静态模型。未来可能会发布改进模型能力和安全性的版本。
许可证: Llama 3.2 的使用受 Llama 3.2 社区许可证(一种定制的商业许可协议)约束。
反馈: 关于模型的问题或评论发送到哪里
关于如何提供模型反馈或评论的说明可以在模型的README中找到。更多关于生成参数的技术信息以及如何在应用程序中使用Llama 3.2-Vision的方法,请参阅这里。
预期用途
预期使用场景: Llama 3.2-Vision旨在用于商业和研究用途。经过指令调优的模型适用于视觉识别、图像推理、字幕生成以及带有图像的助手式聊天,而预训练模型可以适应各种图像推理任务。此外,由于Llama 3.2-Vision能够接受图像和文本作为输入,因此其他可能的应用包括:
视觉问答(VQA)和视觉推理:想象一台机器查看图片并理解您对它的提问。
文档视觉问答(DocVQA):想象计算机能够理解文档(如地图或合同)中的文本和布局,并直接从图像中回答相关问题。
图像字幕生成:图像字幕生成架起了视觉与语言之间的桥梁,通过提取细节、理解场景,然后创作一两句话来讲述故事。
图像-文本检索:图像-文本检索就像是为图像及其描述进行匹配。类似于搜索引擎,但能同时理解图片和文字。
视觉定位:视觉定位像是将我们所见与所说之间建立联系。它涉及理解语言如何引用图像中的特定部分,使AI模型能够根据自然语言描述精确定位物体或区域。
Llama 3.2模型系列还支持利用其模型输出改进其他模型的能力,包括合成数据生成和知识蒸馏。Llama 3.2社区许可证允许这些应用场景。
模型开发者: Meta
模型架构: Llama 3.2-Vision 基于 Llama 3.1 纯文本模型构建,后者是一种使用优化的变压器架构的自回归语言模型。调优版本使用监督微调(SFT)和基于人类反馈的强化学习(RLHF),以符合人类对于帮助性和安全性的偏好。为了支持图像识别任务,Llama 3.2-Vision 模型使用了一个单独训练的视觉适配器,该适配器与预训练的 Llama 3.1 语言模型集成。适配器由一系列交叉注意力层组成,这些层将图像编码器表示输入到核心LLM中。
训练数据 参数 输入模态 输出模态 上下文长度 GQA 数据量 知识截止日期
Llama 3.2-Vision (图像, 文本)对 11B (10.6) 文本 + 图像 文本 128k 是 6B (图像, 文本)对 2023年12月
Llama 3.2-Vision (图像, 文本)对 90B (88.8) 文本 + 图像 文本 128k 是 6B (图像, 文本)对 2023年12月
支持的语言: 对于纯文本任务,官方支持英语、德语、法语、意大利语、葡萄牙语、印地语、西班牙语和泰语。Llama 3.2 的训练数据集比这八种支持语言更广泛。注意,对于图像+文本应用程序,仅支持英语。
开发人员可以在遵守 Llama 3.2 社区许可和可接受使用政策的前提下,对超出这些支持语言的 Llama 3.2 模型进行微调。开发人员始终应确保其部署,包括涉及额外语言的部署,是安全和负责任的。
Llama 3.2 模型家族: 令牌计数仅指预训练数据。所有模型版本都使用了分组查询注意力(GQA)来提高推理可扩展性。
模型发布日期: 2024年9月25日
状态: 这是一个基于离线数据集训练的静态模型。未来可能会发布改进模型能力和安全性的版本。
许可证: Llama 3.2 的使用受 Llama 3.2 社区许可证(一种定制的商业许可协议)约束。
反馈: 关于模型的问题或评论发送到哪里
关于如何提供模型反馈或评论的说明可以在模型的README中找到。更多关于生成参数的技术信息以及如何在应用程序中使用Llama 3.2-Vision的方法,请参阅这里。
预期用途
预期使用场景: Llama 3.2-Vision旨在用于商业和研究用途。经过指令调优的模型适用于视觉识别、图像推理、字幕生成以及带有图像的助手式聊天,而预训练模型可以适应各种图像推理任务。此外,由于Llama 3.2-Vision能够接受图像和文本作为输入,因此其他可能的应用包括:
视觉问答(VQA)和视觉推理:想象一台机器查看图片并理解您对它的提问。
文档视觉问答(DocVQA):想象计算机能够理解文档(如地图或合同)中的文本和布局,并直接从图像中回答相关问题。
图像字幕生成:图像字幕生成架起了视觉与语言之间的桥梁,通过提取细节、理解场景,然后创作一两句话来讲述故事。
图像-文本检索:图像-文本检索就像是为图像及其描述进行匹配。类似于搜索引擎,但能同时理解图片和文字。
视觉定位:视觉定位像是将我们所见与所说之间建立联系。它涉及理解语言如何引用图像中的特定部分,使AI模型能够根据自然语言描述精确定位物体或区域。
Llama 3.2模型系列还支持利用其模型输出改进其他模型的能力,包括合成数据生成和知识蒸馏。Llama 3.2社区许可证允许这些应用场景。



