推荐算法

GeoSID|Quantizer-Aware Geometric Shaping for Semantic IDs

聚焦生成式推荐中的 Semantic ID tokenization 问题,以 tokenizer-side geometric shaping 优化量化前表示空间。

First Author EMNLP Submission Generative Recommendation Semantic ID
整体方法图

方法框架

GeoSID methodology overall framework 图

研究问题

现有 Semantic ID 的离散化流程通常默认预训练 item embedding 已经适合量化,但实际表示常存在各向异性和方向主导问题,容易带来 code usage 不均衡,以及 SID prefix 可分性下降。

方法设计

GeoSID 在不改动下游生成式推荐模型的前提下,引入轻量的投影分布匹配正则项,并将 geometric shaping 放到 tokenizer 对应的量化空间中,在 RQ residual levels 与 OPQ/PQ blocks 上分别完成优化。

结果与价值

在 RPG backbone 上,GeoSID 带来最高 8.13% 的 Recall@10 和 6.91% 的 NDCG@10 提升,并降低投影分布偏差,改善 code usage balance 与 prefix-level SID collisions,说明方法在效果与稳定性上都有增益。