山东大学项目实训个人纪实(4)——实时音频转口型探索
尝试使用Oculus LipsyncOculus Lipsync的原理是实时分析音频的波形计算出“视位Visemes即嘴型”的权重并驱动 MetaHuman 的面部表情。理论很美好但是实际操作起来困难重重困难一版本适配当前Oculus Lipsync已经停止更新了且官网使用的示例版本是4.25所幸github上恰好有大佬写的适配5.6版本的插件遂下载下来试试。困难二插件编译虽然版本已经对上了但是UE依旧报错需要重新编译插件。但当前项目是纯蓝图于是将项目转成C项目重新编译。UE项目过于巨大编译一次两小时。。但还好最后编译成功了困难三插件使用有了插件但不知道怎么用目前唯一的资料只有官网只言片语的文档。下载了UE4.5将官方示例Demo打开查看插件使用方法如下根据官方文档编写脚本又惊奇地发现由于UE版本太高没有Face_AnmiBP脚本需要自己制作面部表情来驱动。简单制作了一个动画蓝图然而依旧无法实现经过查看源码发现该插件不支持实时音频转口型需要修改C文件工程量较大先将此方法搁置使用Audio2Face第一个难题就是环境配置。NVIDIA在2025.10移除了Audio2Face的app下载改为了容器SDK的方式。但是环境死活配不通说是权限不够。刷B站刷到一个本地部署的将Audio2Face SDK和训练模型下载到本地进行转化成了但是电脑显存一下就炸了还暂时无法实现实时的功能。所以之后还是得尝试使用容器或其他方法