2020-Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction

Posted Mar 17, 2024

By mengyao 3 min read

挑战

在推荐系统场景下，用户的历史行为信息有着至关重要的作用，但是长序列建模对计算资源是一个挑战 SIM模型提出一种基于检索的用户行为兴趣CTR模型

SIM包含两级检索模块GSU（General Search Unit，通用搜索单元）和ESU（Extract Search Unit，精准搜索单元）

GSU包括两种方案，hard-search和soft-search

hard-search是无参数的，直接从用户历史行为中筛选目标相同的item
soft-search根据目标embedding和行为embedding的内积进行相似性检索给定用户的行为序列\(B=(b_{1},b_{2}...b_{T})\),GSU对于每一个用户行为计算一个相关性得分\(r_{i}\),根据\(r_{i}\)选择topK用户行为

但是由于长期兴趣和短期兴趣的数据分布存在差异，不能直接采用已经学习充分的短期兴趣模型向量来进行相似用户行为计算。

对于soft-search，GSU采用了一个辅助CTR 任务来学习长期数据和候选广告之间的相关性

前一阶段，筛选出了用户topk相关的历史行为，ESU用于提取精准的用户兴趣。

考虑到离线效果提升和线上资源消耗，阿里巴巴线上实际使用的是hard-search方法，对于hard-search，用户行为可以直接按照类别进行组织并建立好离线索引

用户行为树UBT采用Key-Key-Value数据结构来进行存储。

第一级key是用户ID，第二级key 是叶子行为所属的类目。采用分布式部署的方式处理UBT数据使得它能服务大规模的在线流量请求，并采用广告类目作为hard-search检索 query。

GSU模块使原始用户行为长度从上万数量级降低到百级

This post is licensed under CC BY 4.0 by the author.