基于Hi3861与WM8978的智能录音笔：物联网音频终端开发实战

张

张建站

2026/5/19 20:34:51

10分钟阅读

1. 项目概述与核心价值最近在折腾一个挺有意思的玩意儿基于海思Hi3861 WiFi IoT模组搭配WM8978音频编解码芯片打造一个具备网络功能的智能录音笔。这听起来可能像是一个简单的“录放音”组合但当你把Hi3861的联网能力、低功耗特性与WM8978的高品质音频处理能力结合起来你会发现它能玩出很多花样。这不仅仅是做一个能录音的硬件而是构建一个可以远程控制、实时上传、甚至进行初步音频分析的智能音频终端。我之所以选择这个组合是因为在物联网和边缘计算越来越普及的今天单纯的离线录音设备已经不能满足很多场景的需求。比如你想在办公室远程启动家里的录音笔记录一段重要的家庭对话或者在一个分布式环境监测项目中需要将多个节点的声音数据实时汇总到云端进行分析。Hi3861作为一款集成了Wi-Fi和丰富外设的RISC-V MCU成本可控开发资源相对丰富是这类应用的理想主控。而WM8978则是一颗经典的、功能全面的低功耗音频编解码器自带麦克风放大器、耳机驱动甚至还有简单的DSP效果能极大简化音频前端的硬件设计。这个项目适合谁呢如果你是一名嵌入式开发者想深入理解I2S、I2C音频总线协议并实践如何将音频子系统与网络功能结合这会是一个绝佳的练手项目。如果你是一名创客或硬件爱好者想做一个属于自己的、功能可定制的智能录音设备这个方案提供了从硬件选型到软件驱动的完整参考。即使你只是对音频技术或物联网应用感兴趣跟着这个项目走一遍也能对现代智能硬件开发有一个非常直观的认识。2. 核心硬件选型与设计思路拆解2.1 主控芯片Hi3861的独特优势与考量选择Hi3861作为主控绝非偶然。首先它内置了IEEE 802.11b/g/n Wi-Fi这意味着设备可以轻松接入局域网或互联网实现音频数据的无线传输和远程控制这是传统录音笔不具备的核心能力。其次它基于开放的RISC-V架构主频最高160MHz拥有足够的算力来处理音频数据的编解码、封装以及简单的网络协议栈。其内置的SRAM和Flash对于存储短暂的音频缓冲区和程序代码也基本够用。更重要的是Hi3861的外设接口非常契合我们的需求。它支持标准的I2S接口这是与WM8978这类音频编解码器通信的“高速公路”用于传输高质量的音频数据流。同时它也有I2C接口用于对WM8978进行初始化配置设置其采样率、增益、音效等参数。此外GPIO、PWM、ADC等外设可以用于连接按键、指示灯、电池电量检测等外围电路构成一个完整的系统。在项目规划时一个关键考量是功耗。智能录音笔很可能需要电池供电。Hi3861支持多种低功耗模式在待机或网络监听状态下可以进入Deep Sleep模式以极低的功耗运行当收到网络唤醒指令或本地按键触发时再快速恢复工作这对于延长续航至关重要。2.2 音频编解码器WM8978的功能解析与电路设计要点WM8978是一颗集成了完整音频通路的芯片。对于录音笔应用我们主要关注其录音ADC和播放DAC通路。录音通路外部麦克风驻极体或MEMS的信号首先进入芯片的麦克风输入引脚。WM8978内部包含可编程增益放大器PGA可以将微弱的麦克风信号放大到合适的电平。放大后的模拟信号经过抗混叠滤波器后由高精度的Sigma-Delta ADC转换为数字信号。这个数字音频流通过I2S接口发送给Hi3861。在这个过程中WM8978还可以提供麦克风偏置电压简化了外部电路设计。播放通路Hi3861通过I2S将数字音频数据比如播放一段提示音或录制的音频发送给WM8978。WM8978的DAC将数字信号转换为模拟信号经过内部滤波器后可以直接驱动耳机也可以通过线路输出Line Out连接到功率放大器驱动扬声器。电路设计核心电源去耦模拟和数字电源必须分开并靠近芯片引脚放置足够容量的去耦电容如10uF钽电容100nF陶瓷电容这是保证音频质量、避免底噪的关键。时钟系统WM8978需要主时钟MCLK通常由Hi3861的I2S主时钟提供或者使用外部晶振。MCLK的频率决定了音频采样率的基础必须稳定、低抖动。例如要支持44.1kHz或48kHz采样率MCLK通常需要是采样率的256倍或384倍。麦克风电路如果使用驻极体麦克风需要连接一个偏置电阻通常2.2kΩ到WM8978提供的MICBIAS电压。麦克风输出端最好串联一个小的耦合电容如1uF以隔离直流。I2S连接确保Hi3861的I2S主模式Master与WM8978的从模式Slave正确匹配。连接线包括BCLK位时钟、LRCK左右声道时钟、SDIN数据入Hi3861到WM8978、SDOUT数据出WM8978到Hi3861。I2C连接用于配置WM8978内部寄存器。需要连接SCL和SDA线并加上拉电阻通常4.7kΩ。注意WM8978的寄存器配置比较繁琐有几十个之多。建议在初始化时严格按照数据手册的推荐序列进行特别是上电、使能时钟、设置音频接口格式等步骤顺序错误可能导致芯片无法正常工作或出现杂音。3. 软件架构与驱动层实现详解3.1 开发环境搭建与基础工程创建这个项目基于OpenHarmony的LiteOS-M内核进行开发。首先需要在Ubuntu环境下搭建完整的Hi3861开发环境包括安装编译工具链、Python环境、以及OpenHarmony的源码。这个过程官方文档比较详细但有几个坑需要注意一是工具链的路径配置必须准确否则编译会报错二是源码下载最好使用repo工具并指定国内镜像源以加速。创建工程时我们不是在写一个孤立的裸机程序而是在OpenHarmony的框架下添加一个新的“产品”。这意味着我们需要在vendor/hisilicon/hispark_pegasus目录下参考已有的demo创建我们自己的产品目录比如smart_recorder。关键是要编写正确的BUILD.gn文件将我们后续编写的音频驱动、业务逻辑代码编译进去。一个更高效的方法是直接利用Hi3861 SDK中已有的I2S和I2C示例驱动作为起点进行修改。这比从零开始写要可靠得多也能更好地兼容OpenHarmony的HDF硬件驱动框架模型。3.2 WM8978驱动开发寄存器配置与音频接口初始化驱动WM8978的核心就是通过I2C总线读写其内部寄存器。我们需要先实现一个基础的I2C读写函数。// 伪代码示例I2C写寄存器函数 int wm8978_write_reg(uint8_t reg, uint16_t val) { uint8_t data[2]; data[0] (reg 1) | ((val 8) 0x01); // WM8978的寄存器地址格式 data[1] val 0xFF; // 调用Hi3861的I2C驱动接口进行传输 return i2c_write(WM8978_I2C_ADDR, data, 2); }初始化WM8978是一个按部就班的过程以下是一个支持48kHz采样率、立体声录放的核心初始化序列复位向寄存器0x00写入0x0000进行软件复位。供电配置逐步打开模拟和数字部分的电源。例如先打开麦克风偏置、输入输出放大器等模拟部分的电源寄存器0x19, 0x1A再打开ADC、DAC的数字部分电源寄存器0x06。时钟配置设置时钟源和分频器。如果我们使用Hi3861提供的12.288MHz MCLK要配置WM8978的时钟分频使其内部系统时钟满足48kHz采样率的需求。这通常涉及寄存器0x04和0x05的设置。音频接口格式设置I2S模式、数据长度、主从模式等。WM8978应配置为I2S格式、16/24位数据、从模式寄存器0x07。输入通路配置选择麦克风输入、设置PGA增益。例如使能左/右麦克风输入并设置一个合适的增益值如20dB通过寄存器0x00, 0x01, 0x02, 0x03等配置。输出通路配置设置耳机/线路输出的音量、使能输出。通过寄存器0x02, 0x03设置输出混音和音量。采样率设置根据MCLK频率配置寄存器0x10选择48kHz采样率模式。使能通路最后使能ADC和DAC寄存器0x06并打开输出使能寄存器0x03。实操心得初始化失败最常见的原因是I2C通信不稳定或寄存器写入顺序不对。建议在每步关键配置后增加一个读取验证的步骤将读回的寄存器值与预期值打印出来对比能快速定位问题。另外供电配置一定要按手册推荐的顺序否则芯片可能进入奇怪的状态。3.3 Hi3861 I2S驱动配置与数据流管理Hi3861的I2S驱动相对标准。我们需要配置其为I2S主模式生成BCLK和LRCK给WM8978。// 伪代码示例I2S初始化配置 void hi3861_i2s_init(void) { // 1. 初始化I2S控制器设置为主模式 hi_i2s_init(I2S_PORT_0); // 2. 配置音频参数采样率48kHz数据位宽16bit主模式I2S标准格式 hi_i2s_attribute attr; attr.sample_rate HI_AUDIO_SAMPLE_RATE_48K; attr.bit_width HI_AUDIO_BIT_WIDTH_16BIT; attr.mode HI_I2S_MODE_MASTER; attr.frame_format HI_I2S_FORMAT_I2S; hi_i2s_set_config(I2S_PORT_0, attr); // 3. 设置DMA缓冲区用于音频数据搬运 hi_i2s_set_dma_buffer(...); }数据流管理是核心。录音时WM8978通过I2S的SDOUT线将ADC数据实时发送给Hi3861。Hi3861的I2S DMA会自动将这些数据搬运到指定的内存缓冲区。我们需要设置一个环形缓冲区Ring Buffer来接收这些数据。#define AUDIO_BUF_SIZE (1024 * 8) // 8KB缓冲区 static int16_t audio_record_buffer[AUDIO_BUF_SIZE / 2]; // 16bit采样所以是元素个数 static size_t record_rptr 0, record_wptr 0; // 读/写指针 // I2S DMA中断服务函数伪代码 void i2s_dma_isr(void) { // 当DMA完成一个块传输时触发 size_t dma_len get_dma_transfer_length(); // 将DMA缓冲区中的数据拷贝到环形缓冲区 memcpy(audio_record_buffer[record_wptr], dma_buf, dma_len); record_wptr (record_wptr dma_len/2) % (AUDIO_BUF_SIZE/2); // 更新写指针 // 通知上层应用有新的数据可用 }播放则是相反的过程应用层将待播放的音频数据如WAV文件数据填充到另一个播放环形缓冲区I2S DMA会自动从该缓冲区读取数据通过SDIN线发送给WM8978的DAC。关键点必须确保DMA缓冲区的设置大小和中断频率合理。缓冲区太小会导致中断过于频繁消耗大量CPU资源甚至可能因为处理不及时导致数据丢失录音或播放卡顿。缓冲区太大会引入较大的音频延迟。对于48kHz 16bit立体声一秒钟的数据量是48k * 2 * 2 192KB。通常DMA缓冲区设为512或1024个采样点几毫秒的数据是比较合适的。4. 应用层功能实现与网络集成4.1 音频数据存储与文件系统管理录制的音频数据需要保存。Hi3861本身Flash有限不适合存储大量音频。因此我们有两种选择一是外接SPI Flash或SD卡二是通过网络实时上传。这里我们先讨论本地存储。如果外接了SD卡我们需要实现FATFS文件系统的移植。在OpenHarmony中可以通过//kernel/liteos_m/kal/cmsis目录下的文件系统接口进行适配。录音时我们从一个独立的“数据搬运”任务中从录音环形缓冲区读取数据写入到SD卡上的一个WAV文件中。WAV文件头生成直接写入原始的PCM数据播放器是无法识别的需要生成标准的WAV文件头。这是一个固定格式的结构体包含了采样率、位深、声道数、数据大小等信息。在开始录音时创建文件并写入文件头录音过程中不断追加PCM数据录音结束后再回头更新文件头中的数据大小字段。typedef struct { char chunkID[4]; // RIFF uint32_t chunkSize; char format[4]; // WAVE char subchunk1ID[4]; // fmt uint32_t subchunk1Size; uint16_t audioFormat; uint16_t numChannels; uint32_t sampleRate; uint32_t byteRate; uint16_t blockAlign; uint16_t bitsPerSample; char subchunk2ID[4]; // data uint32_t subchunk2Size; // 这是最后需要更新的字段 } WavHeader;4.2 基于Wi-Fi的网络功能实现这是“智能”二字的体现。Hi3861的Wi-Fi功能使我们能够实现音频流直播将录音环形缓冲区中的数据通过UDP或TCP实时发送到网络上的服务器或客户端。可以使用轻量级的RTSP或自定义协议。文件上传录音结束后将完整的WAV文件通过HTTP POST或MQTT协议上传到云存储如对象存储OSS或私有服务器。远程控制运行一个简单的TCP Server或MQTT Client监听网络命令。例如接收“开始录音”、“停止录音”、“播放文件XXX”等指令。以MQTT为例我们可以集成一个轻量级MQTT客户端库如paho.mqtt.embedded-c的简化版。设备上电后连接指定的Wi-Fi热点然后连接到MQTT Broker订阅像/device/recorder/control这样的主题。当云端或其他设备向这个主题发布{cmd:start_record}的JSON消息时设备解析并执行开始录音的操作。// 伪代码MQTT命令处理回调 void mqtt_callback(char* topic, char* payload) { cJSON* root cJSON_Parse(payload); if (root) { cJSON* cmd cJSON_GetObjectItem(root, cmd); if (cmd strcmp(cmd-valuestring, start_record) 0) { start_recording_task(); // 触发开始录音 } // ... 处理其他命令 cJSON_Delete(root); } }网络音频流的挑战实时音频流对网络延迟和抖动非常敏感。在实现时需要增加一个网络发送缓冲区并采用适当的拥塞控制策略。例如当检测到网络延迟增大时可以临时降低音频编码的码率如果后续引入了编码环节或者增加缓冲时间来对抗抖动但这会引入更大的端到端延迟。4.3 低功耗管理与电源优化为了实现长续航低功耗设计必须贯穿始终。工作模式划分活跃模式正在录音或播放Wi-Fi保持连接或间歇性连接用于心跳CPU全速运行。功耗最高。待命模式等待网络指令或本地按键触发。此时可以关闭WM8978的绝大部分电路通过I2C写寄存器Hi3861的CPU降频Wi-Fi模块进入省电模式PS-Poll仅维持基本连接。功耗大幅降低。深度睡眠模式长时间无任何任务。关闭WM8978电源Hi3861进入Deep Sleep仅靠RTC定时器或外部中断如按键唤醒。功耗极低。软件策略无录音任务时尽快让系统进入待命或睡眠模式。网络心跳包间隔可以适当拉长比如从1秒一次改为30秒一次。本地按键检测使用中断唤醒而不是轮询。录音时如果支持可以动态调整WM8978的麦克风增益和ADC采样率在保证清晰度的前提下降低功耗。5. 系统调试与常见问题排查实录5.1 硬件联调从无声到有声的排查路径第一次上电调试最常遇到的问题是“完全没有声音”。这是一个系统性问题需要分层排查。第一步电源与时钟检查用万用表测量WM8978的AVDD、DVDD、VREF等电源引脚电压是否正常、稳定。用示波器测量Hi3861提供给WM8978的MCLK引脚是否有波形频率是否正确例如12.288MHz。没有MCLKWM8978的数字核心无法工作。第二步I2C通信验证编写一个简单的测试程序循环读取WM8978的某个只读寄存器如设备ID寄存器0x00复位后高字节为0x89。如果读不到正确的值说明I2C通信失败。检查I2C线序SCLSDA是否接反上拉电阻是否焊接。用逻辑分析仪或示波器抓取I2C波形看起始信号、地址、数据、ACK是否正常。第三步I2S信号与数据流检查用示波器或逻辑分析仪检查I2S的BCLK、LRCK、SDOUT录音时、SDIN播放时信号。确认BCLK和LRCK的频率关系。对于48kHz立体声LRCK应为48kHzBCLK LRCK * 位数 * 声道数 48k * 16 * 2 1.536MHz。播放测试让Hi3861通过I2S发送一个固定的测试音如1kHz的正弦波数字序列用示波器测量WM8978的耳机输出引脚看是否有相应的模拟正弦波输出。如果没有检查WM8978的DAC和输出通路是否配置正确。录音测试对着麦克风说话或施加一个固定的声音用逻辑分析仪捕获I2S的SDOUT线数据看数据是否随声音变化。也可以让Hi3861将接收到的I2S数据直接通过内存打印出来数据量很大可以采样打印观察其数值是否变化。5.2 软件问题与音质优化当基础功能通后可能会遇到音质问题或稳定性问题。问题一录音有持续的“嗡嗡”声或高频噪声。排查这通常是电源噪声或地线干扰。检查模拟电源AVDD的滤波电容是否足够布局上是否远离数字电源和高速数字信号线。尝试将麦克风的地与WM8978的模拟地单点连接。解决在软件上可以尝试启用WM8978内部的数字高通滤波器HPF滤除低频嗡嗡声。也可以通过调整麦克风PGA增益过高的增益会放大本底噪声。问题二播放声音断断续续或卡顿。排查这几乎是DMA缓冲区管理或任务调度的问题。首先检查播放环形缓冲区的“水位”是否经常被读空Underrun。如果是说明数据供给速度跟不上DMA消耗的速度。解决提高填充播放缓冲区的任务优先级。或者增大播放环形缓冲区的大小。用调试工具查看系统任务栈是否溢出是否因为其他高优先级任务如网络任务长时间阻塞了音频数据填充任务。问题三网络控制响应慢或不稳定。排查Wi-Fi信号强度如何使用ping命令测试设备与路由器的延迟和丢包率。检查MQTT或TCP连接是否因为网络波动频繁断开重连。解决在代码中增加网络状态机管理和重连机制。对于关键控制指令可以采用确认-重发机制。优化Wi-Fi天线布局或尝试调整Wi-Fi信道。问题四功耗高于预期。排查使用电流表串联在电池供电回路分别测量不同模式下的电流。解决确认在待命模式下WM8978是否通过寄存器关闭了所有不必要的模块输入输出、ADC、DAC、PLL等。确认Hi3861的Wi-Fi是否进入了PS-Poll模式。检查是否有GPIO引脚配置成了输出且驱动着外部负载。5.3 功能扩展与进阶思路这个基础框架搭建好后有很多可以扩展的方向音频编码直接存储PCM的WAV文件体积巨大。可以集成一个轻量级的音频编码库如ADPCM、Speex或Opus在录音时实时压缩数据能极大节省存储空间和网络带宽。Hi3861的算力进行低复杂度的ADPCM编码绰绰有余。语音触发实现离线语音唤醒如说“开始录音”就启动。这需要在Hi3861上运行一个轻量级的语音关键词识别KWS算法。可以采集一小段音频提取MFCC特征与预存的模板进行简单比对。这对算力有一定要求但可以实现。声学事件检测不是录制所有声音而是检测特定声音如玻璃破碎声、婴儿哭声并触发录音或报警。这需要更复杂的音频特征提取和模式识别算法。多机同步如果项目需要多个录音笔协同工作比如做声源定位可以利用Hi3861的Wi-Fi实现简单的网络时间同步确保各设备录音时间戳对齐。这个Hi3861WM8978的智能录音笔项目从硬件焊接、驱动调试到网络功能集成几乎涵盖了物联网音频终端开发的所有关键环节。过程中遇到的每一个问题从无声到有声从杂音到清晰从本地到联网都是对开发者嵌入式系统理解深度的一次次考验。我最深的体会是硬件调试离不开示波器和逻辑分析仪这两样“眼睛”而软件调试则需要耐心地分层、分模块验证先确保每一个基础环节电源、时钟、通信都正确无误再去构建复杂的功能。当你第一次通过网络命令让远端的设备开始录音并在手机APP上听到实时传来的声音时那种成就感是对所有调试工作最好的回报。

别再死记硬背了！用Vivado 2022.1和Vitis搭建ZYNQ工程，这份避坑清单帮你省下3小时

ZYNQ开发实战：从Vivado到Vitis的高效避坑指南当第一次打开Vivado和Vitis的开发者，往往会被复杂的界面和繁琐的配置流程所困扰。本文将以"按键控制LED"这一经典案例为主线，揭示ZYNQ开发中最容易踩中的12个深坑，并提供经…...

2026/5/19 20:34:39 阅读更多 →

STM32独立看门狗IWDG喂狗超时？手把手教你用CubeMX配置并避开3个常见坑

STM32独立看门狗实战：CubeMX精准配置与工程避坑指南在嵌入式系统开发中，系统稳定性往往比功能实现更具挑战性。我曾参与过一个工业控制器项目，设备在现场运行两周后出现不明原因重启，最终排查发现竟是看门狗配置不当导致的"…...

2026/5/19 20:33:56 阅读更多 →

AI产品经理深度解析：从产业链到岗位分类，助你成为行业精英！

本文全面解析了AI产品经理的核心角色与能力，涵盖AI产业链的三大结构（基础层、技术层、应用层），深入剖析了AI行业架构的软硬件结合特性，并详细分类了基栈型、AI型（ToB/ToC）、软件型及软硬结合型A…...

2026/5/19 20:32:31 阅读更多 →

在Taotoken模型广场中根据场景选择合适的模型

🚀 告别海外账号与网络限制！稳定直连全球优质大模型，限时半价接入中。 👉 点击领取海量免费额度在Taotoken模型广场中根据场景选择合适的模型面对众多大模型厂商和琳琅满目的模型，开发者常常面临选择困难&#xff1…...

2026/5/19 14:18:54 阅读更多 →

Agent 一接流式 API 就开始响应断层：从 Delta Parsing 到 Final Assembly 的工程实战

很多开发者以为 Agent 接入流式 API 只是"开个 SSE 连接、逐字渲染"这么简单。直到生产环境报错：用户的话说到一半突然断层，工具参数在流中被截成两半，多轮对话上下句粘在一起。这些问题不是网络抖动，而是 Delta 解析和…...

2026/5/19 14:18:56 阅读更多 →

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案

ESP-SR语音识别框架深度剖析：高性能嵌入式唤醒词与命令识别解决方案【免费下载链接】esp-sr Speech recognition 项目地址: https://gitcode.com/gh_mirrors/es/esp-sr ESP-SR是乐鑫推出的高性能嵌入式语音识别框架，专为资源受限的物联网设备设计…...

2026/5/19 14:18:58 阅读更多 →