文章主要内容与创新点总结一、主要内容本文提出了一种新型音频语言模型(Audio Language Model, ALM)Pengi,其核心思路是通过迁移学习将所有音频任务转化为文本生成任务,实现对开放式和封闭式音频任务的统一处理。1. 模型架构输入输出:以音频片段和文本提示为输入,生成自由格式文本作为输出,无需额外微调或任务特定扩展即可适配多类任务。核心组件:音频编码器:基于CLAP的HTSAT transformer骨干网络,将原始音频转化为连续嵌入序列,训练过程中解冻权重以优化性能;文本编码器:采用冻结的CLIP文本编码器,将文本提示转化为嵌入序列;映射网络:两个可训练映射网络(m₁、m₂)分别将音频和文本嵌入转化为固定长度的前缀序列,拼接后输入语言模型;因果语言模型:冻结的预训练GPT2-base模型,基于前缀自回归生成文本输出。2. 训练与推理训练框架:设计8类音频任务模板(如音频描述生成、情感识别、音乐分析等),将340万条音频-文本对适配为“音频-文本-输出文本”格式,以交叉熵为损失函数进行统一训练;推理方法:开放式任务直接生成文本输出,封闭式任务通过文