基于助睿数智(Uniplore)平台的 ETL 入门实验报告
一、实验背景1.1 实验目的本次实验基于助睿数智Uniplore一站式数据科学实验平台目标是掌握数据集成ETL的基本流程与可视化操作具体达成以下技能熟悉助睿 ETL 平台的界面与核心概念掌握新建转换、添加组件、执行转换的完整流程。熟练使用表输入、记录集连接、字段选择、过滤记录、表输出等核心 ETL 组件。独立完成多表关联、数据过滤与分流处理的实战任务理解数据从抽取、转换到加载的完整逻辑。1.2 实验环境实验平台助睿数智Uniplore一站式数据科学实验平台平台地址https://lab.guilian.cn/数据源MySQL 数据库包含订单表 business_anaylsis.order_detail 和产品表 business_anaylsis.product。1.3 处理流程简述本次实验的整体处理逻辑如下数据抽取通过「表输入」组件分别读取订单表与产品表的数据。数据关联使用「记录集连接」组件基于公共字段完成两张表的关联操作。字段处理通过「字段选择」组件筛选并整理出后续分析所需的目标字段。数据过滤利用「过滤记录」组件按条件对数据进行分流将符合与不符合条件的数据分别输出。数据加载将处理后的数据通过「表输出」组件写入目标数据库表中完成数据加载。二、实验步骤步骤 1新建 ETL 转换操作说明登录助睿平台进入数据集成模块新建一个空白的 ETL 转换任务登入贵兰依次点击进入助睿新建团队填入信息点击确认即可进入我的项目选择刚刚创建的团队或者自己的团队进行新建项目填写项目名称并确认此处我以“4.27 课堂实验”为例双击进入项目新建转换流填入转换流名称然后点击确认同步元数据配置要点为转换命名如 “订单利润分流处理”并保存至指定项目路径。步骤 2添加所有组件并完成连线操作说明在画布中一次性添加本次实验所需的全部组件并按数据流转顺序完成连接拖入 2 个「表输入」组件订单_详细订单订单_产品信息重命名两个表输入组件分别命名为订单_详细订单订单_产品信息两个表输入组件的重命名操作基本相同这里仅给出一个样例拖入 1 个「记录集连接」组件拖入 1 个「字段选择」组件重命名为“移除产品ID_1字段”拖入 1 个「过滤记录」组件拖入 2 个「Microsoft Excel 输出」组件分别用于存储符合条件和不符合条件的数据重命名两个输出组件分别命名为盈利订单亏损订单按流程连线订单_详细订单、订单_产品信息 → 记录集连接出现一个“十”点击拖拉即可记录集连接 → 移除产品ID_1字段移除产品ID_1字段 → 过滤记录连接后记得选择主输入步骤过滤记录的 “条件为真” 输出流 → 盈利订单选择True输出过滤记录的 “条件为假” 输出流 → 亏损订单选择False输出配置要点确保组件之间的数据流方向正确形成完整的处理链路。完整图步骤 3配置「表输入」组件订单_详细订单操作说明选中订单表对应的「表输入」组件配置数据源与查询语句。配置要点选择正确的 MySQL 数据库连接“线上公共数据源Readonly”。点击获取SQL查询语句点开如下目录找到order_detail表点击表并确认再次点击确认获取到有效的SQL后点击确认步骤 4配置「表输入」组件订单_产品信息操作说明选中产品表对应的「表输入」组件配置数据源与查询语句。配置要点与步骤三类似只需将获取的表换成business_anaylsis.product即可步骤 5配置「记录集连接」组件操作说明选中「记录集连接」组件设置两表的关联方式与关联字段。配置要点第一个Transform选择订单_详细订单第二个选择订单_产品信息连接类型选择LEFT OUTER点击两个Transform的获取连接字段第一个的连接字段仅保留product_id第二个仅保留id字段其余字段全部右键删除然后点击确认步骤 6配置「字段选择」组件操作说明选中「字段选择」组件筛选并调整需要保留的字段。配置要点双击字段选择组件点击移除在“暂无数据”的方框里右键并点击获取字段保留id字段其余字段全删除因为product_id和id的内容相同步骤 7配置「过滤记录」组件操作说明选中「过滤记录」组件设置过滤条件与数据分流规则。配置要点选择将结果发送给不同的后续处理步骤选择利润Profit字段作为判断字段选中如下图所示字段选择“0”作为判断条件具体的的判断函数和值的配置如下图所示点击value类型选择Integer值为0至此过滤记录配置完成点击确认即可步骤 8配置「表输出」组件两个操作说明分别选中两个「表输出」组件配置目标表信息。配置要点为第一个Excel输出组件接收符合条件数据文件名改为“盈利订单”扩展名改为如下图所示点击输出字段然后右键获取字段最终结果如图所示点击确认即可为第二个Excel输出组件接收不符合条件数据亏损订单也进行同样的配置步骤 9运行转换并查看日志操作说明点击保存然后再点击运行按钮执行整个 ETL 转换流程并查看运行日志。配置要点点击保存和运行点击启动最终结果和日志无报错三、实验结果3.1 输出数据结果本次实验生成了两张目标数据表盈利订单存储所有满足过滤条件Profit 0的订单 - 产品关联数据。亏损订单存储不满足过滤条件的数据。具体结果如下图所示助睿平台的文件库中出现盈利订单和亏损订单的文件右键文件并下载两个文件3.2 结果分析与验证数据完整性验证对比原订单表10000 条、产品表1977 条与输出表记录数盈利订单 7977 条、亏损订单 2023 条总条数与关联后数据一致无数据丢失、重复或遗漏。数据准确性验证打开导出的 Excel 文件随机抽查订单号、产品名称、单价、利润等字段与源数据一致左连接关联逻辑正确字段无错位、无乱码。数据分流验证盈利订单文件中profit ≥ 0亏损订单文件中profit 0过滤条件完全生效数据分流准确无误。盈利订单亏损订单四、问题与解决问题 1记录集连接组件关联失败无数据输出问题现象两个表输入组件均读取到数据但记录集连接输出为 0 条。问题原因未正确指定关联字段或字段选择错误导致两表未匹配到关联数据。解决方法在记录集连接中将第一个 Transform 连接字段设为product_id第二个设为id删除多余字段后重新执行关联正常输出数据。问题 2过滤记录组件配置后分流异常问题现象过滤条件设置后盈利 / 亏损订单数据分配不符合预期。问题原因未正确选择profit字段、判断条件写错或输出组件未对应 True/False 流。解决方法重新选择profit字段设置条件 ** 0**将 True 输出连至盈利订单、False 输出连至亏损订单配置无误后分流正常。五、实验总结5.1 实验收获我完整掌握助睿 ETL 从新建团队 / 项目→新建转换流→批量拖放组件→连线→分步配置→运行导出的全流程操作理解 Pipeline、Transform、Hops 等核心概念。熟练使用表输入、记录集连接、字段选择、过滤记录、Microsoft Excel 输出等组件能独立完成多表左连接、字段清理、按利润条件分流的 ETL 任务。通过本次实验我对数据抽取、关联、清洗、过滤、加载的完整链路有了实操认知能独立排查配置错误并完成数据分流验证。5.2 平台整体评价助睿数智Uniplore平台的可视化 ETL 功能非常友好无需编写复杂代码通过拖拽组件即可完成数据处理流程极大降低了 ETL 学习的门槛。平台组件丰富、配置清晰运行日志和监控也很完善方便及时排查问题非常适合初学者快速上手数据集成相关技能。六、其他平台全称助睿数智Uniplore的数据集成平台ETL平台定位覆盖数据接入、ETL 处理、机器学习建模到可视化分析的全链路 Agentic 零代码数据智能平台产品官网https://www.uniplore.com/实验平台地址https://lab.guilian.cn/