LRFS模型:电商客户细分新维度,从交易分析到行为预测
1. 项目概述为什么电商需要更精细的客户细分在电商行业摸爬滚打这些年我见过太多团队手握海量用户数据却依然在“广撒网”式营销。他们知道客户细分很重要但往往停留在简单的“新老客户”、“高价值低价值”这种粗糙的划分上。传统的RFM模型最近一次消费、消费频率、消费金额或者其变体LRF模型增加了客户关系时长确实为理解客户价值提供了基础框架。但问题在于在线上购物这个即时、碎片化、注意力稀缺的环境里仅仅知道一个客户“买了什么”、“多久买一次”、“花了多少钱”是远远不够的。我们更需要知道在“买”这个动作发生之前客户在网站上“做了什么”。这就是LRFS模型试图回答的核心问题。它在前人的LRF模型基础上引入了一个全新的“S”维度——基于收入的停留率。这个“S”不是简单地看用户在网站上待了多久而是将停留行为与最终的商业价值收入挂钩。它量化了一个关键洞察一个用户长时间浏览却从不购买和一个用户短暂停留后迅速下单对于平台的价值是截然不同的。前者可能只是“橱窗购物者”而后者则是高效的“转化者”。LRFS模型通过融合Google Analytics中的“页面价值”和“退出率”数据将这种浏览行为的“质量”进行了量化从而让客户细分从“交易后分析”延伸到了“交互过程分析”。对于电商运营、数据分析师和产品经理来说掌握LRFS模型意味着你能更早地识别出高潜力的客户群体甚至在首次购买发生前就预判其价值。它不再仅仅是对历史交易进行归档而是转变为一种预测和干预工具。例如你可以识别出那些“高停留率、高页面价值但低转化”的群体并针对性地优化他们的购物路径或推送个性化优惠从而将浏览兴趣转化为实际订单。接下来我将结合一篇前沿的学术论文为你拆解LRFS模型从数据准备、特征工程、模型构建到结果解读的全过程并分享在实际业务中落地此类模型时你必须注意的那些“坑”。2. LRFS模型的核心设计思路与原理拆解2.1 传统模型的局限与“S”维度的诞生传统的客户细分模型无论是RFM还是LRF其数据源主要依赖于交易记录。LRF在RFM的基础上增加了“L”Length of Relationship客户关系时长试图区分长期客户和短期客户。这在逻辑上是进步的但它依然存在一个盲区它完全忽略了用户在最终达成交易前的所有线上行为。想象两个客户客户A是你的三年老客平均每季度下单一次客单价稳定。客户B是上周刚注册的新客还没下过单。按照LRF模型客户A无疑会被划为高价值客户而客户B则可能被归为低价值或待观察群体。然而如果我们深入查看行为数据可能会发现客户A每次访问只停留2分钟浏览3个页面后就直奔结算而客户B在过去一周内访问了10次每次平均停留15分钟深度浏览了产品详情页、评测、对比视频甚至多次将商品加入购物车但未支付。从行为上看客户B表现出极强的购买意向和探索深度只是存在最后的支付障碍可能是价格、信任或流程问题。传统的LRF模型无法捕捉到客户B的这种“高意向但低转化”状态从而可能错失一个极佳的转化机会。“S”维度的引入正是为了填补这一空白。它的计算公式看似简单却蕴含着对用户意图的深刻度量S 页面价值 × (1 - 退出率)页面价值源自Google Analytics代表用户在该会话中访问的页面平均带来的价值收入目标达成价值。它衡量的是页面内容的“商业吸引力”。退出率用户从某个页面离开网站的比例。(1 - 退出率)可以理解为“停留率”即用户选择继续浏览而非离开的可能性。因此“S”本质上是一个“有效停留价值”指标。一个高的S值意味着用户不仅停留了低退出率而且停留在了那些能带来高价值的页面上高页面价值。这比单纯看“会话时长”或“浏览页面数”要精准得多因为它过滤掉了无目的的闲逛行为。2.2 数据基础与特征工程的巧思论文中使用的数据集来自UCI机器学习仓库的“在线购物购买意向”数据集。这个数据集包含了12,330个独立用户的会话数据每个会话有18个特征包括行政、信息、产品相关页面的访问次数和时长、跳出率、退出率、页面价值等Google Analytics指标以及月份、访客类型等属性。原始数据并不能直接套入LRF模型因为数据集的一个关键限制是每个会话对应一个唯一用户没有同一个用户的多次访问记录。这意味着我们无法直接计算传统意义上的“最近购买时间”和“购买频率”。这里就体现了特征工程的智慧。研究团队通过巧妙的映射从现有特征中“构造”出了L、R、FL关系时长由于没有确切的首次访问日期他们利用“月份”和“访客类型”进行推断。对于“回访客”关系时长被估算为从数据集起始月份假设为1月到当前访问月份的差值。对于“新访客”则默认关系时长为1个月。这是一种在数据受限下的合理近似。R最近度计算为数据集中最晚的月份12月减去客户本次访问的月份再加1。这衡量了客户“最近是否活跃”。F频率这里没有历史总访问次数于是用单次会话内的“总页面浏览量”来替代。虽然这不完全等同于访问频率但它是一个有效的代理指标反映了用户在当前会话中的参与深度。S基于收入的停留率如前所述由“页面价值”和“退出率”计算得出。实操心得特征构造的合理性这种映射并非完美。例如用单次会话的页面浏览量代替历史访问频率会损失时间序列上的信息。但在实际业务中我们常常面临数据不完整的问题。关键在于这种构造是否在业务逻辑上说得通并且能提升模型效果。论文后续的对比实验证明加入构造出的L、R、F尤其是S确实带来了更好的细分效果。这提示我们在资源有限时创造性地利用现有数据生成代理特征往往比等待“完美数据”更实际。此外研究团队还进行了关键的数据清洗和特征选择移除了“特殊日期”、“操作系统”、“浏览器”等与LRFS分析目标关联性弱的特征。发现了“退出率”和“跳出率”的高相关性0.91因此只保留了“退出率”以避免冗余。同样由于“总页面时长”和“总页面浏览量”高度相关0.86只保留了后者用于计算F。对分类特征如月份、访客类型进行了数值化编码。这些步骤是构建稳健模型的基础其核心思想是在引入尽可能多信息的同时避免多重共线性并确保每个特征都对目标有独立贡献。3. 模型构建聚类算法与降维技术的组合拳有了LRFS这四个维度的特征矩阵下一步就是进行客户分群。这里采用了无监督学习的经典方法——聚类并搭配了降维技术以便于可视化和分析。3.1 聚类算法的选择K-Means vs. K-Medoids论文同时使用了K-Means和K-Medoids两种算法。它们核心区别在于中心点的选择K-Means以簇内所有点的均值作为中心点质心。计算高效但对异常值敏感。K-Medoids从簇内实际存在的点中选择一个点作为中心点中心对象。更稳健抗噪声能力强但计算成本更高。在电商客户数据中难免会存在一些“极端用户”如一次性豪掷千金的客户或频繁浏览但永不购买的客户。K-Medoids理论上能更好地处理这些异常点避免质心被“带偏”。论文通过对比两种算法的结果来评估模型的稳定性。3.2 降维技术的运用PCA、t-SNE与自编码器LRFS是四维数据虽然可以直接聚类但降维到2D或3D空间有助于我们直观地观察分群效果并检查聚类算法的合理性。论文使用了三种主流技术主成分分析一种线性降维方法通过找到数据方差最大的方向主成分来压缩数据。它擅长保留数据的全局结构。t-SNE一种非线性降维方法特别擅长在低维空间保持高维数据点之间的局部相似性。常用于可视化能清晰展示出不同的簇。自编码器一种基于神经网络的方法通过编码器将数据压缩到低维潜在空间再通过解码器重构。它能够学习数据复杂的非线性特征。论文分别将LRFS数据通过这三种方法降维后再分别应用K-Means和K-Medoids进行聚类形成了一个3降维方法x 2聚类算法 6种组合的对比实验。这种设计非常严谨旨在寻找最适合LRFS数据特性的“降维聚类”组合。3.3 确定最佳聚类数肘部法则与轮廓系数在使用K-Means或K-Medoids前必须确定簇的数量K。论文采用了两种常用方法肘部法则绘制不同K值对应的簇内误差平方和曲线选择曲线拐点肘部对应的K值。轮廓系数衡量一个点与自身簇的紧密度和与其他簇的分离度。轮廓系数越接近1说明聚类效果越好。选择平均轮廓系数最大的K值。通过这两种方法为每种“降维算法”组合确定了最优的K值在论文中K值多在4到7之间。4. 结果分析与业务解读从数据簇到用户画像模型跑出来的结果不是终点如何解读并转化为商业策略才是关键。论文通过详尽的簇分析展示了LRFS模型的洞察力。4.1 聚类结果可视化与对比以“K-Means PCA”组合为例该组合在论文中整体表现较好最终得到了4个客户簇。每个簇在L、R、F、S四个维度上都有不同的均值特征簇0R值高最近访问但L、F、S值都低。这意味着一群“近期来过但参与度很低”的用户他们的转化率也最低仅10%。可能是被广告偶然吸引进来但迅速离开的流量。簇1L值极高长期关系但R值低很久没来了F和S值也低。这像是“沉睡的老客”曾经有关系但现已流失。簇2F值极高浏览了大量页面L值也高但S值和转化率30%却只是中等。这是一群“深度浏览但犹豫不决”的用户。他们花时间研究但购买决策周期长或障碍多。簇3S值极高同时转化率也最高在某些组合中达到50%甚至81%。尽管他们的L、R、F可能不是最高但他们的“有效停留价值”最高。这正是LRFS模型价值的核心体现——成功识别出了“高意向、高转化效率”的核心用户群体。对比实验LR vs. LF vs. LRF vs. LRFS清晰地显示加入了S维度的LRFS模型能够分离出一个转化率显著高于其他模型的客户簇如上述簇3。这证明了“停留率”维度提供了LRF所不具备的、对购买意向的关键判别力。4.2 客户分类与关系矩阵制定精准策略仅仅知道有4个簇还不够我们需要给每个簇打上业务标签。论文结合了两种经典的分析框架客户盈利分析矩阵根据客户带来的“收入”和所需的“服务成本”此处用F和S间接反映参与度和服务负担将客户分为四类被动型高收入低成本。最优质的客户需要重点维护和奖励。马车贸易型高收入高成本。能带来利润但需要投入较多服务资源。廉价地下层型低收入低成本。价值不高但维护起来也便宜。激进型低收入高成本。最需要警惕的客户类型可能消耗大量资源却产出甚微。客户关系矩阵根据L关系时长和R最近度的变化趋势将客户分为忠诚客户L增加R增加关系久且最近活跃。潜在客户L增加R减少关系久但近期不活跃。新客户L减少R增加关系短但最近活跃。不确定客户L减少R减少关系短且近期不活跃。将LRFS每个簇的特征L、R、F、S与整体均值的比较映射到这两个矩阵中就能得到复合的业务画像。例如论文中“K-Medoids t-SNE”产生的某个簇被标记为“马车贸易型忠诚客户”。这意味着这群客户能带来收入但他们在网站上浏览非常深入高F可能需要较多的客服咨询或页面资源同时他们关系久且最近活跃是忠诚的。对于这类客户策略不是简单地推送折扣而是提供优质的增值服务、专属客服或高级会员权益以匹配他们的高参与度并巩固其忠诚度。4.3 实战案例推演论文还设计了三个测试用例生动说明了如何应用模型测试用例1大学生群体L高长期关注但R、F、S都低。被归类为“廉价地下层型潜在客户”。他们比价行为明显预算敏感。策略应是在学生季推出“多人拼单折扣”、“学生认证专享价”并在他们浏览的旅行相关页面推荐性价比高的关联商品如防晒霜、便携充电宝促成其从“潜在”转化为“忠诚”。测试用例2被促销吸引的新客L、R低新客但F、S高。被归类为“廉价地下层型不确定客户”。他们为折扣而来转化成本可能高于其带来的收入。策略是通过“登录积分”、“生日礼包”等机制提升其长期价值并在其犹豫时高F、高S通过客服聊天框或弹窗提供“限时折扣券”加速转化决策。测试用例3忙碌的公司职员只有S高L、R、F都低。被归类为“被动型不确定客户”。他们购物目的明确决策快客单价可能不低但互动少。策略是在节假日前后向其发送个性化的礼品推荐清单提供“一键复购”功能对于高客单价订单赠送下次可用的满减券激励其回购。5. 模型部署的挑战、技巧与未来方向5.1 实操中的核心挑战与应对数据质量与完整性原论文数据集最大的局限是缺少真正的用户级时间序列数据每个用户只有一条会话记录。在实际业务中我们应尽可能获取完整的用户行为日志。如果数据同样受限论文提供的特征构造思路用代理变量是很好的应急方案但必须清楚其假设和误差。“S”维度的计算依赖S的计算严重依赖Google Analytics的“页面价值”和“退出率”。你需要确保你们的GA部署是正确且完整的特别是“目标”和“电子商务”跟踪是否设置妥当这直接决定了“页面价值”计算的准确性。聚类结果的稳定性与解释性K-Means对初始质心敏感可能导致每次运行结果略有差异。在生产环境中建议多次运行取平均或使用K-Means优化初始化。定期如每月重新运行聚类观察客户群体的漂移情况。聚类结果一定要与业务部门市场、运营、产品一起解读为每个簇赋予易于理解的名称和策略避免“黑箱”。从分群到行动模型产出分群只是第一步。关键在于如何与现有的营销自动化工具如CRM、CDP、邮件营销平台集成实现分群的自动化触达。例如将为“激进型”客户设计的挽回策略设置为一个自动化的旅程识别用户进入该簇 - 触发一条个性化的关怀邮件 - 若未打开三天后推送APP弹窗优惠券。5.2 参数调优与算法选择建议降维方法选择如果目标是业务解释和可视化PCA和t-SNE是首选。PCA能告诉你哪些原始特征L、R、F、S对新维度贡献最大便于解释。t-SNE的图通常更“好看”簇间分离更明显。如果特征是高度非线性的可以尝试自编码器但需要调参且解释性较差。聚类算法选择如果数据清洗得比较好异常值少K-Means因其速度优势是首选。如果数据中存在明显异常值如极少数的超级VIP或刷单用户K-Medoids或DBSCAN基于密度的聚类会更稳健。论文中K-Means整体表现更优可能说明该数据集经过预处理后噪声较小。特征标准化切记在计算距离的聚类算法如K-Means前必须对L、R、F、S进行标准化如Z-score标准化否则量纲大的特征如F页面浏览数可能很大会主导距离计算使模型失效。论文中使用了标准缩放器这是标准操作。5.3 模型扩展与未来方向LRFS模型是一个强大的起点但仍有扩展空间引入更多行为维度除了停留率还可以考虑“搜索关键词”、“点击流路径模式”、“加购/收藏行为”、“客服咨询记录”等构建更立体的用户行为画像。动态细分与实时预测静态的聚类是“过去式”分析。可以将其发展为动态聚类或与有监督模型结合。例如使用LRFS特征作为输入训练一个分类模型如XGBoost、LightGBM来实时预测用户在下一次会话中购买的概率从而实现真正的实时个性化干预。与深度学习结合如论文未来工作方向提到的可以尝试深度嵌入聚类。它使用自编码器学习数据的低维表示并同时优化聚类目标能让特征表示更适合聚类任务可能得到更优的簇。利润导向的细分原模型因数据缺失未考虑“利润”。在实际中应将“M” Monetary货币价值重新纳入并区分为“收入”和“利润”。一个客单价高但退货率也高、折扣成本高的客户其利润价值可能远低于一个客单价中等但稳定的客户。构建LRFSPP for Profitability模型将是更终极的目标。最后我想强调的是任何模型都是工具LRFS模型的价值不在于其算法多么复杂而在于它提供了一个将用户行为数据与商业价值直接挂钩的、可量化的分析框架。它迫使我们从“交易视角”转向“用户旅程视角”去理解客户。在实际操作中不要追求一次完美可以从一个核心品类或一个用户生命周期阶段开始试点快速验证“S”维度在你们业务中的有效性再逐步推广和迭代。模型上线后紧密跟踪核心指标如针对不同簇的营销活动转化率、客户生命周期总价值的提升用业务结果来证明模型的价值这才是技术驱动增长的闭环。