华为 GTS 部门的 AI 算法团队开发了一种名为 GTS-LUM 的新技术,专注于解决电信行业用户行为建模的挑战。这项技术能够精确分析用户行为并进行多步预测,在实验中其表现远超 Meta 的 HSTU 和字节跳动的 HLLM。
GTS-LUM 是 Global Technical Service-Large User Model 的缩写,它有几个创新之处:
在一系列测试中,GTS-LUM 在各项评估指标上都超过了基准模型,达到了该领域的最新技术水平。
随着电信市场的渗透率接近饱和,如何挖掘现有用户的潜在价值并留住他们成为了运营商的关键策略。电信用户在线活动产生的海量数据(每天达到PB级别)构成了一个新的数据类型。
过去,运营商依靠传统的机器学习方法来分析用户行为,但由于模型规模的限制,预测的准确性遇到了瓶颈。与互联网推荐系统的用户行为建模不同,电信行业的特殊性在于用户决策往往受到长期服务体验的影响,例如网络质量和费用合理性,而不是短期的兴趣驱动。
这种长期决策机制使得传统的基于最近行为的采样策略面临挑战,如果直接应用可能会导致重要历史信息的丢失,影响预测的准确性。
电信用户的数据输入和预测目标具有明显的异质性,包括行为记录的多样性、时间粒度的不同层次以及不同的业务目标。这给现有的技术带来了几个难题:
因此,华为 GTS 部门提出了 GTS-LUM 技术架构,以应对这些挑战。
GTS-LUM 的核心技术之一是多尺度时间处理机制,它通过构建“时段-周期”的语义描述来优化用户行为序列建模。这种方法将一天分为多个典型时间段,并结合周级别的特征来描述用户行为发生的背景。然后,将用户行为按照特定的时间段进行聚合处理。
对于同一时间段内的用户行为,在序列的开头插入相应的时段-周期语义描述,并在结尾添加一个特殊符号作为行为片段的分隔标志。这样的设计可以让模型更好地理解和预测用户的行为模式。
另一个重要的特点是多模态异构框架,它能够准确捕捉用户业务层面的浅层语义。通过处理用户与产品、位置、渠道等交互行为,生成一段描述性的文本,再利用预训练的语言模型获取文本向量嵌入,并通过谱聚类提取可解释的行为语义编码。
此外,还采用了 Node2Vec 算法处理图数据,以及 TableGPT2 框架处理属性维表,生成多模态业务嵌入向量。为了实现跨模态对齐,引入了基于 Q-Former 适配器的机制,通过交叉注意力层选择相关特征,并通过共享的自注意力层建立业务特征空间和语义空间的潜在映射关系,最终通过对比学习任务完成跨模态知识对齐。
GTS-LUM 还改进了用户表征学习过程,通过目标感知建模突出与任务场景最相关的过去行为。与传统推荐模型不同,GTS-LUM 将预测标签放在行为序列的起始位置,利用语言模型的因果注意力机制实现两阶段优化。在注意力计算阶段,目标标签动态调整历史行为的注意力权重分布;在表征生成阶段,基于解码器的自回归结构逐步优化特征,通过多次解码迭代调整用户表征向量。
在实际应用中,GTS-LUM 在一个省级运营商的真实环境中进行了训练和推理,使用大约20万用户的样本数据在Ascend 910B2 NPU上运行。实验结果显示,GTS-LUM 的表现非常出色。
与其他业界解决方案相比,GTS-LUM 在所有评估指标上都显著优于基准模型。这表明,虽然典型的推荐模型在实验室数据中表现良好,但在复杂的工业级数据集中,其性能会显著下降。具体来说,GTS-LUM 相较于 Meta 的 HSTU 提升了107.86%,相较于字节跳动的 HLLM 提升了31.38%。这些改进强调了整合多模态输入的重要性和将开放世界知识与特定业务知识对齐的必要性。
更多详细的结果可以在论文中找到。GitHub 链接为:https://github.com/zzzzztw/GTS-LUM/blob/main/GTS-LUM.pdf。