计算机学报

	《计算机学报》文章摘要全文下载
文章题目	基于多模态特征融合嵌入的相似广告检索方法
作者	冯奕1),2) 周晓松1),2) 李传艺1),2) 王挺3) 葛季栋1),2) 胡雨成3) 张小鹏3) 骆斌1),2)
作者单位	1)(南京大学计算机软件新技术国家重点实验室 南京 210046) 2)(南京大学软件学院 南京 210093) 3)(深圳市腾讯计算机系统有限公司 广东深圳 518000)
发表年份	2022
发表月份	7期(1500-1516)
文章摘要	摘 要 随着互联网人工智能技术的飞速发展，学习用户特征并精准投放广告能够显著提升广告的点击率(Click-Through-Rate，CTR)与转化率(ConversionRate，CVR).人群智能定向是解决广告投放问题中极其重要的一环，其业界主流方法是使用转化用户和非转化用户训练基于用户特征的判断其是否会成为转化用户的分类模型.这个分类器的优劣依赖广告的实际转化人群规模，规模越大，越能准确判断.但在实际应用中通常面临某些广告转化人群不足的问题，本文利用在学术与工业场景占据重要研究地位的基于内容的检索技术来扩充相似广告集合，从而扩充对应转化人群.现有的单模态检索方案只关注于单个模态的特征(文本/图像)，忽视了不同模态间的内在共有联系，使得挖掘出的广告特征不全且包含大量噪声，最终导致相似广告的检索结果质量不高，从而导致相似转化人群的扩充质量低下.而近年来兴起的跨模态检索方案主要关注以文搜图或以图搜文，并且没有考虑到通用目标检测器并不适用于特定领域图像数据这一事实.为解决这些问题，本文提出一种以广告分类为基本训练目标的多模态商品广告特征融合建模方法，以提升相似广告检索的效果.具体来说，本文使用Transformer模型提取文本语义特征，使用目标检测YOLO模型挖掘图像中细粒度的视觉特征，并结合文本注意力机制识别图像中与商品相关的目标，以降低无关目标给广告特征带来的噪声影响.同时，本文提出了一种多模态融合注意力机制，以高效融合广告文本和图像特征.该模型命名为ToTYEmb(TextorientedTransformer-YolofusionEmbedding).另外，本文还提出了一种算法框架，将相似广告扩充、转化人群扩充加入到现有的人群智能定向工作流中.实验结果表明，较多个基线模型，本文方案有效提升了相似商品广告的检索质量，避免了很多由单模态信息带来的错误.同时离线人群定向更新实验表明本文提出的利用相似广告扩充转化人群确实能在很大程度上优化现有的人群智能定向算法. 关键词 多模态特征融合；相似广告检索；Transformer；注意力机制中图法分类号 TP18 DOI号 10.11897/SP.J.1016.2022.01500