点击率(Click-through Rate, CTR)预测在推荐系统中至关重要,直接影响用户的解读集报集体验和平台的收入。近年来,点击的CTR引起了行业和学术界的告基工业关注,也推动了各种开源CTR数据集的于支出现。然而,付宝运动装备跑步鞋 卓越超群者当前现有的平台CTR数据集还存在一些局限。为解决CTR数据集存在的真切部分局限问题,蚂蚁集团提出了一个基于支付宝平台真切工业数据集——多场景多模态点击率预测数据集(AntM2C,深度数据数据数据Multi-Scenario Multi-Modal CTR)数据集。解读集报集
它包括支付宝平台五类业务场景的点击的10亿个CTR数据。除了包含ID特征外,告基工业每个样本还包含多模态特征,于支为CTR模型提供了全面的付宝评估信息。在ATEC“数星”计划首批发布的平台数据集中,AntM2C也首次公开发布了1000万条数据,并且即将进行第二轮总体数据量级达到十亿的开源。
本数据集的发布填补了行业内多场景多模态点击率预估问题的数据集空白,后续AntM2C还发布更多的数据和特征,并逐步对AntM2C进行更先进的基线方法的评估,提供全面而可靠的评估结果。
目前,蚂蚁集团多场景多模态点击率预估数据集第一阶段开源(AntM2C)可在ATEC官方平台下载,数据集下载入口:https://www.atecup.cn/ods
AntM2C数据:尝试突破传统CTR数据集局限性
【多样的业务场景和商品类型】:AntM2C数据集包含了支付宝平台上五类典型业务场景中不同类型的商品,包括广告、优惠券、小程序、内容和视频。每个业务场景都有奇异的数据分布,不同场景之间也存在大量交叉用户和相似商品,这可以用于对多场景CTR建模进行更全面的评估,以测试CTR模型在多个业务场景中的有效性。
【多模态特征系统】:AntM2C不仅包括ID特征,还提供了丰富的多模态特征,如文本和图像,可以在不同场景之间建立相似商品之间的联系,并能够更好地评估多模态CTR模型。此外,AntM2C的特征系统包括200多个特征,使其更加贴近工业场景中的实际CTR预测(在第一阶段开源中,AntM2C开源了1000万个样本,包括29个ID特征和2个文本特征,更多的数据和图像特征将会在后续阶段中逐步发布)。
【最大的数据规模】:AntM2C包括2亿用户和600万个商品,总共达10亿个样本。每个用户的平均交互次数超过50次。据开源方所知,AntM2C是目前规模最大的公开CTR数据集,可以提供全面可靠的CTR评估结果。
【全面的基准测试】:基于AntM2C数据集,开源方构建了三个典型的CTR任务,包括多场景建模、冷启动建模和多模态建模。在此基础上还提供了基线模型的评估结果。这些评估结果不仅可以帮助研究人员和从业者更好地了解不同CTR任务的性能和挑战,还提供了参考和比较的依据。
源于支付宝平台真切工业数据而生的AntM2C数据集
基于10亿样本的AntM2C数据集
依托实际数据分布,可有效反映多场景CTR预测情况
AntM2C数据集特征体系:不止用户和商品特征,更有额外特征
数据集的应用:多场景CTR预估、冷启动CTR预估、多模态CTR预估
多场景CTR预估
冷启动CTR预估
●少样本:在训练集中出现次数大于0且小于N的(本文设定N为100)用户和商品,表示这些用户和商品只有很少的训练数据。
●零样本:在训练集中从未出现过的用户和商品,表示用户是第一次访问该场景,或者该商品在第一天被推出。
多模态CTR预估
展 望
希望未来有更多的团队加入CTR相关的研究领域,在合规安全的前提下,参与数据集的开源及共建工作。感谢蚂蚁集团AntM2C数据集开源团队(蚂蚁集团机器智能团队、蚂蚁集团商业智能团队、蚂蚁集团应用智能AML团队)为公益性技术研究做出的贡献。
雷峰网(公众号:雷峰网)