2025_NIPS_Pengi: An Audio Language Model for Audio Tasks

张

张建站

2026/5/23 4:21:11

10分钟阅读

2025_NIPS_Pengi: An Audio Language Model for Audio Tasks

文章主要内容与创新点总结一、主要内容本文提出了一种新型音频语言模型（Audio Language Model, ALM）Pengi，其核心思路是通过迁移学习将所有音频任务转化为文本生成任务，实现对开放式和封闭式音频任务的统一处理。1. 模型架构输入输出：以音频片段和文本提示为输入，生成自由格式文本作为输出，无需额外微调或任务特定扩展即可适配多类任务。核心组件：音频编码器：基于CLAP的HTSAT transformer骨干网络，将原始音频转化为连续嵌入序列，训练过程中解冻权重以优化性能；文本编码器：采用冻结的CLIP文本编码器，将文本提示转化为嵌入序列；映射网络：两个可训练映射网络（m₁、m₂）分别将音频和文本嵌入转化为固定长度的前缀序列，拼接后输入语言模型；因果语言模型：冻结的预训练GPT2-base模型，基于前缀自回归生成文本输出。2. 训练与推理训练框架：设计8类音频任务模板（如音频描述生成、情感识别、音乐分析等），将340万条音频-文本对适配为“音频-文本-输出文本”格式，以交叉熵为损失函数进行统一训练；推理方法：开放式任务直接生成文本输出，封闭式任务通过文

【即插即用完整代码】AAAI 2026 “一看就懂，先扫后察”大模型让视频异常无处遁形！

专栏内提供试读，感兴趣的小伙伴可以订阅一下哈！适用于所有的CV二维任务：图像分割、超分辨率、目标检测、图像识别、低光增强、遥感检测等每日分享最新的前沿技术，助力快速发论文、模型涨点！一、摘要当前视频异常检测方…...

2026/5/23 4:20:33 阅读更多 →

AI INFRA之NVIDIA GPUDirect节点内和节点间通信原理详解

本文是基于AI云智公坊的公众号文章整理而来，如有侵权请联系作者删除。 NVIDIA GPUDirect 是一系列旨在增强数据中心 GPU 间数据传输与访问能力的技术统称。其核心目标是减少 GPU 间数据传输过程中不必要的拷贝、提升通信链路带宽并降低通信延迟。按通信范围划分&am…...

2026/5/23 4:20:08 阅读更多 →

【Typora图片保存为相对路径】

Typora图片保存为相对路径1 一个文档建1个文件夹2 设置相对路径3 注意事项1 一个文档建1个文件夹 2 设置相对路径指令：./markdown-img/${filename}.assets 3 注意事项 （1）只要粘贴图片，就会自动保存在本地。此时你删除文档内的…...

2026/5/23 4:19:44 阅读更多 →

在Taotoken模型广场中根据场景选择合适的模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Taotoken模型广场中根据场景选择合适的模型面对众多大模型厂商和琳琅满目的模型，开发者常常面临选择困难&#xff1…...

2026/5/22 17:26:41 阅读更多 →

Agent 一接流式 API 就开始响应断层：从 Delta Parsing 到 Final Assembly 的工程实战

很多开发者以为 Agent 接入流式 API 只是"开个 SSE 连接、逐字渲染"这么简单。直到生产环境报错：用户的话说到一半突然断层，工具参数在流中被截成两半，多轮对话上下句粘在一起。这些问题不是网络抖动，而是 Delta 解析和…...

2026/5/21 11:19:54 阅读更多 →

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案【免费下载链接】esp-sr Speech recognition 项目地址: https://gitcode.com/gh_mirrors/es/esp-sr ESP-SR是乐鑫推出的高性能嵌入式语音识别框架，专为资源受限的物联网设备设计…...

2026/5/22 17:51:20 阅读更多 →