paper阅读-白红宇

paper阅读

阅读量：4045 次

发布时间：2019-05-24

本文共 956 字，大约阅读时间需要 3 分钟。

DSTN 模型

（KDD 2019）Deep Spatio-Temporal Neural Networks for Click-Through Rate Prediction

辅助广告数量不等，如何兼容？DSTN-P：Pooling Model

同类型的辅助广告中，既包含与当前广告相关的信息，也包含无用噪声，如何区分对待？DSTN-S：Self-attention Model

不同类型的辅助广告对目标广告影响不同，怎样融合所有可用信息？DSTN-I：Interactive Attention Model

广告进行 Embedding 化，Embedding 时会对不同类型的特征将进行如下变换：

1）单值离散特征：直接 Embedding

2）多值离散特征：Embedding 后接 Sum Pooling 映射为单个 Embedding

3）数值特征：离散化后映射为 Embedding

引入了三种类型的辅助广告信息

对不同的辅助广告类型采用不同权重

基于注意力机制，从同类辅助广告中动态提取有用的信息

在统一框架下，融合多种类型的不定数目的辅助广告信息

对比三类 DSTN 模型，它们的主要区别在于信息提取方式，其中：

DSTN-P 采用 Sum Pooling，信息提取能力最弱

DSTN-S 采用 Self-Attention，基于同类辅助广告的相互关系提取有用信息，信息提取能力适中

DSTN-I 采用 Interactive Attention，根据与目标广告的关系动态提取有用信息，信息提取能力最强

通过巧妙地设计用户兴趣记忆单元和损失函数，建模用户行为兴趣。

对于每个用户 U，MA-DNN 会保留两个记忆向量 mu0 和 mu1 ( 图中 User memory )，分别记忆用户不喜欢和喜欢的信息。在预估时，我们会查询当前 User 的两个记忆向量，并将它拼接到 DNN 的输入 Embedding 层，再通过 MLP 获得最终的 CTR 预估结果。

转载地址：http://nmhdi.baihongyu.com/

你可能感兴趣的文章