摘要: | 本文的目标是设计一个可扩展的分布式Sparse Classification RBM |
简介
该系统通过对检索查询的相关特征进行有监督的学习从而得到在线广告推荐业务 的CTR预估模型。由于在线系统的训练数据量巨大(通常为数亿条),特征的维 度高,所以必须要考虑构建分布式的训练系统以降低大规模训练所需要的时间。 本文第二节介绍单进程Sparse Classification RBM的基本算法;第三节探讨采用 DownPour优化算法做多进程RBM Training开发的思路;第四节讨论要训练更大规 模的模型,进行优化的方向和基本实现方法;第四节讨论实现该系统所涉及到的 工程技术,包括开发语言,开发库等等。 TR预估模型。由于在线系统的训练数据量巨大(通常为数亿条),特征的维 度高,所以必须要考虑构建分布式的训练系统以降低大规模训练所需要的时间。 本文第二节介绍单进程Sparse Classification RBM的基本算法;第三节探讨采用 DownPour优化算法做多进程RBM Training开发的思路;第四节讨论要训练更大规 模的模型,进行优化的方向和基本实现方法;第四节讨论实现该系统所涉及到的 工程技术,包括开发语言,开发库等等。