jina-embeddings-v5-omni:用于文本、图像、音频和视频的 embeddings
作者来自 Elastic https://jina.ai/一个模型四种模态文本、图像、音频、视频。1.6B 和 0.9B 参数规模的业界领先 omni embeddings。https://huggingface.co/collections/jinaai/jina-embeddings-v5-omnihttps://arxiv.org/abs/2605.08384我们发布了jina-embeddings-v5-omni将我们的 v5-text embedding 模型扩展到了图像、音频和视频。两个模型都共享与 v5-text 相同的冻结文本骨干网络这意味着文本 embeddings完全一致—— 无需重建索引。jina-embeddings-v5-omni-small 在四种模态上的平均得分达到53.93在参数量少 5.7 倍的情况下接近 LCO-7B54.43而 jina-embeddings-v5-omni-nano 则仅使用 0.95B 参数就提供了具有竞争力的文档检索能力。所有开源权重 omni embedding 模型支持文本、图像、音频和视频的 Pareto 前沿图。jina-embeddings-v5-omni-small1.57B在参数量少 5.7 倍的情况下达到了 LCO-7B8.93B的平均得分。jina-embeddings-v5-omni-nano0.95B相比 LanguageBind1.14B高出 8.9 分。基线模型包括LanguageBind、Omni-Embed-Nemotron-3B、LCO-Embedding-Omni-3B、LCO-Embedding-Omni-7B。在文本MMTEB、图像MIEB、视频MMEB-Video和音频MAEB上的分模态结果。jina-embeddings-v5-omni-small 在文本任务上以 67.0 领先所有 omni 模型继承了 jina-embeddings-v5-text-small 的完整质量。在图像任务上56.05它在分类68.55和聚类84.57在所有模型中最佳方面表现出色。跨 13 种任务类型的分任务性能。金色星标表示 jina-embeddings-v5-omni-small 在这些任务上超过了最佳开源权重基线模型后者参数规模大 3–9 倍。领先项目图像分类68.55 vs 64.30图像聚类84.57 vs 83.24音频分类55.89 vs 53.39主要差距视频检索27.82 vs 58.73组合式推理 / VQA44.23 vs 53.40文档检索ViDoRe-in-MIEB。jina-embeddings-v5-omni-small 使用 0.92B 激活文本 图像参数取得了 79.08 的得分超过了 LCO-3B4.07B 参数下为 78.24。jina-embeddings-v5-omni-nano 仅使用 0.31B 激活参数就取得了 70.05 的得分远高于 LanguageBind37.33。Nemotron-3B 以 85.64 领先但使用了高出 5.1 倍的参数量。架构v5-omni 完全保留冻结的 v5-text 骨干网络并新增了预训练视觉与音频编码器通过小型可训练 projector 进行连接视觉Qwen3.5 视觉编码器基于 SigLIP2 改造采用 2x2 空间 mergetoken 数减少 4 倍。除最终 projection layerfc_vision_2之外其余部分全部冻结。我们将该层替换为随机初始化的新层用于映射到文本骨干网络的 hidden dimension。音频Qwen2.5-Omni 编码器基于 Whisper-large-v3 改造。一个随机初始化的 fc_audio 层将 1280 维输出映射到文本骨干网络。视频作为视觉帧序列处理可选地在前面添加提取出的音频片段。该模型继承了 v5-text 的四个任务专用 LoRA adaptersretrieval、text-matching、classification、clustering并为每个任务变体训练独立 projector 权重。整个架构完全模块化仅文本部署时不会加载视觉或音频权重与 v5-text footprint 完全一致仅图像模式会跳过音频模块完整 omni 模式则加载全部组件v5-omni 架构。冻结的视觉和音频编码器通过可训练的 projector 输入到冻结的文本骨干网络中。只有 projectors占总权重的 0.35%参与训练。任务专用的 LoRA adapters 负责处理检索、分类、聚类和文本匹配。Featurejina-embeddings-v5-omni-smalljina-embeddings-v5-omni-nanoBase Text Modeljina-embeddings-v5-text-small (Qwen3-0.6B)jina-embeddings-v5-text-nano (EuroBERT-210m)Total Parameters~1.56B~1.04BModalitiesText, Image, Audio, Video, PDFText, Image, Audio, Video, PDFEmbedding Dimensions1024768Matryoshka Dimensions32, 64, 128, 256, 512, 768, 102432, 64, 128, 256, 512, 768Max Sequence Length32768 tokens8192 tokensVision EncoderQwen3.5-2B ViT (SigLIP2)SigLIP2 BaseAudio EncoderWhisper-large-v3Whisper-large-v3Tasksretrieval, text-matching, classification, clusteringretrieval, text-matching, classification, clusteringText CompatibilityIdentical to jina-embeddings-v5-text-smallIdentical to jina-embeddings-v5-text-nanoTrainable Parameters~18M projectors (0.35%)~7M projectors (0.35%)PoolingLast-tokenLast-tokenLicenseCC BY-NC 4.0CC BY-NC 4.0入门指南ElasticsearchElastic 推理服务如果你已经在 Elasticsearch 中使用 jina-embeddings-v5-text那么你现有的文本索引可以直接与 v5-omni 开箱即用地工作。omni 模型对文本输入生成的 embeddings 与v5-text 完全一致 —— 相同输入、相同向量、逐字节一致byte-for-byte。你不需要重新生成 embedding 或重建任何文本索引。要开始在现有文本数据旁边搜索图像、音频和视频只需要用 v5-omni 创建一个新的索引并将你的多模态内容写入其中。创建一个 semantic_text 索引并将 v5-omni 作为 inference endpoint。EIS 会自动选择正确的 LoRA adapter 用于索引和检索PUT multimodal-semantic-index { mappings: { properties: { content: { type: semantic_text, inference_id: .jina-embeddings-v5-omni-small } } } }将文本、图像作为 base64 data URI、音频和视频摄入到同一个字段、同一个索引中// Ingest text POST multimodal-semantic-index/_doc { content: Kraft Dinner is what Canadians call macaroni and cheese when prepared from a kit. } // Ingest an image (base64) POST multimodal-semantic-index/_doc { content: data:image/png;base64,iVBORw0KGgoAAAAN... }用一个文本查询跨所有模态进行搜索GET multimodal-semantic-index/_search { query: { semantic: { field: content, query: Was bedeutet Kraft Dinner für Kanadier? } } }Jina Embedding APIcurl https://api.jina.ai/v1/embeddings \ -H Content-Type: application/json \ -H Authorization: Bearer YOUR_API_KEY \ -d { model: jina-embeddings-v5-omni-small, task: retrieval.query, dimensions: 1024, input: [What does this image show?], images: [data:image/png;base64,...] }Hugging Facefrom sentence_transformers import SentenceTransformer import torch model SentenceTransformer( jinaai/jina-embeddings-v5-omni-small-retrieval, model_kwargs{dtype: torch.bfloat16}, ) # Text embedding (identical to v5-text) text_emb model.encode(What is knowledge distillation?, prompt_namequery) # Image embedding from PIL import Image img Image.open(photo.jpg) img_emb model.encode(img) # Cross-modal similarity similarity model.similarity(text_emb, img_emb)训练核心思想是冻结编码器的模型组合取一个强文本 embedding 模型加入预训练的视觉和音频编码器通过小型可训练 projector 将它们连接起来并冻结除这些 projector 之外的所有部分。只有 0.35% 的总权重参与训练这带来了三个特性1文本一致性保持 —— backbone 未被修改相同输入产生相同输出2训练效率 —— 仅 projector 训练使训练速度提升 1.8-3.9 倍并减少 42-64% 的 GPU 内存占用3模块化 —— 各个 tower 可以独立加载。仅训练 projector vs 全量训练4x H100 GPU对比batch size 25615K steps。音频 projector 训练尤其高效small 模型快 3.2 倍154 分钟 vs 497 分钟nano 模型快 3.9 倍112 分钟 vs 441 分钟。42–64% 的显存节省来自于不为冻结的编码器存储梯度和优化器状态。v5-omni 继承了 v5-text 的 Matryoshka 维度支持。图像和音频 embeddings 在截断后仍能保持大部分质量而视频在较小维度下性能下降更明显。总结v5-omni 与最强基线模型的分模态表现对比。jina-embeddings-v5-omni-small1.57B在文本、图像和音频上具有竞争力视频仍是需要进一步补齐的主要差距。结论传统观点认为多模态 embeddings 需要端到端训练整个模型。我们不同意这一点。v5-omni 冻结文本 backbone仅训练 0.35% 的权重并且性能匹配体积大 5–7 倍的模型。这个经验表明模型组合优于重新训练composition beats retraining。一个强大的文本 encoder 是最难的部分 —— 一旦拥有它通过轻量级 projector 叠加视觉和音频几乎是 “零成本” 的。这一点对生产环境非常重要。你现有的 v5-text 索引完全不受影响。相同 query相同 vectorbyte-for-byte 一致。你只是在没有重新 embedding 任何文档的情况下获得了图像、音频和视频搜索能力。这才是真正的突破多模态检索作为即插即用升级而不是迁移工程。jina-embeddings-v5-omni-small 是 2B 参数以下表现最好的开源 omni embedding 模型。jina-embeddings-v5-omni-nano 在 0.9B 参数规模下同样可用。两者现已在 Hugging Face、Jina Search Foundation API以及 Elasticsearch 原生 inference endpoint 中提供。原文https://jina.ai/news/jina-embeddings-v5-omni-multimodal-embeddings-for-text-image-audio-and-video/