选择content-based的特征

Oct 21st, 2013

论文

recsys2013的poster[selection content-based features for collaborative filtering recommenders] [p1]

八卦

作者是 [p1]: http://www.eng.tau.ac.il/~noamk/papers/feature_selection_recsys_2013.pdf

Pairwise Learning

Oct 17th, 2013

背景介绍

recsys2013 Linkedin pairwise learning的报告

观测数据：用户U产生行为Y(在linkedin场景行为是加入的社区)，形成一条数据(u,y)

推荐问题：给定一些（u，y）的元组，为一个用户u推荐用户可能产生的行为（加入社区），或者一个用户u是否会加入社区y

常用方法：收集用户的profile和偏好，计算用户和社区的相似程度

$\begin{aligned} Sim(u,y) = \sum_{i=1}^n(w_i f_u^i f_y^i) \end{aligned}$

计算相识度的算法非常多，启发式方法: 利用启发式公式，计算用户和社区的相似程度。常用的计算相似度的方法包括：jaccard，余弦相似, 欧式距离等:

具体的方法和普通的协同过滤算法类似，定义了user * item的矩阵，计算 item-base的方法是先把item表示成user的向量,

itemA : <userA,userB,userC,userD>
itemB : <userA,userB,userE,userF>

用户以上的相似计算方法度量itemA和itemB的相似性，为了映射到itemA和user的相似性，把user表示成item的向量

userA: <itemB, itemC, itemD>

那么itemA和userA的相似性可以表示层：itemA和<itemB,itemC,itemD>的平均相似性,或者其他值

基于模型的方法直接通过数据特征和把目标，预测用户对目标的偏好程度，常见的机器学习方法比如Logistic Regression

$LR$

这里的x指用户和社区的特征，比如用户的性别，年龄，兴趣，社区的主题，用户和社区的特征组合等等，而目标即用户是否加入社区

一些观察

通常pointwise的排序方法就够用了，但是很多场景下，我们很难度量用户对某个item的喜好程度，但是我们可以定义一些用户的偏好; 另一方面，排序算法会利用点击日志来调整算法的效果，用户只能点击到我们投放给用户的item，用户行为表现更多的是偏向，而不是程度。

比如：在搜索结果场景中，通常会给用户展示多个候选集合，用户浏览集合然后从中挑选出自己偏好的集合。这里的用户行为实际上表现了一些用户的喜好， pointwise的假设是用户的喜好是全局的，用户对候选的表现是独立，不会受到前后的影响。而实际情况确有不同，比如用户通常会对比候选，然后挑选出一个。因此用户的偏好常常是相对的，为了描述这种相对偏好，常常采用pairwise或者listwise的ranking方法。

对单次点击的pairwise样本:

Click > Skip Above
Last Click > Skip Above
Click > Earlier Click
Last Click > Skip Previous
Click > No-Click Next

分析

如何结合整体点击率，在单次点击里抽样样本

同query下，每个item的统计CTR
可选择:消除position bias
选择CTR差值有一定置信度的Pair, 比如：A->B, E->C, C->E
对单次点击过滤掉行为噪音,满足购买>点击>无行为, 从每次pv中过滤掉不满足约束的Pair，剩下A->B, E->C
特征改进
- 按照原始特征分布去筛选样本分布
- 没有区分度的特征通过样本选择的方式去改进
负样本采样
- 没有最优的负样本采样策略

算法

rankSVM
PLSA

并行化

GPU
并发
分布式
- BSP on MPI:
- Hadoop
- Scala

结果

参考

Large Scale Learning to Rank at google

冷启动问题求解

Oct 14th, 2013 | Tags: Recommender Systerm

摘要：	本文介绍冷启动的问题以及常用的求解思路

冷启动问题的解决

冷启动问题的分类：

用户冷启动（新用户来了）；
物品冷启动（新物品来了）；
系统冷启动（整个推荐系统都是新的，也可以认为，它和“用户冷启动”的区别是，所有用户对系统冷启动来讲都是新用户，都面临冷启动问题）

冷启动是稀疏数据问题一种特殊形态。用户跟系统的交互非常少，导致可以利用的数据比较小,也很难为用户建立Profile和兴趣,因此会导致一般的推荐算法失效。

冷启动问题的解决方案：说白了，就是尽可能利用信息给用户一个可以接受的物品列表，最常见的就是热门排行。

有的是根据冷启动问题分类来的，有的是从解决方案（能利用用户什么类型信息）来的。

启发式方法

Linear combination of regression and CF models
Filterbot Add user features as psuedo users and do collaborative filtering
Hybrid approaches Use content based to fill up entries, then use CF

http://grouplens.org/papers/pdf/filterbot-CSCW98.pdf

Matrix Factorization

Good performance on Netflix (Koren, 2009)

Model-based approaches

Bilinear random-effects model (probabilistic matrix factorization)
Good on Netflix data [Ruslan et al ICML, 2009]
Add feature-based regression to matrix factorization (Agarwal and Chen, 2009)
Add topic discovery (from textual items) to matrix factorization (Agarwal and Chen, 2009; Chun and Blei, 2011)

Google Ctr预估系统

Aug 29th, 2013

简介

kdd2013 google的论文就像一枚重磅炸弹 Ad Click Prediction: a View from the Trenches

算法

##工程考虑 ##结语

下一代推荐系统

Aug 8th, 2013 | Tags: Recommender Systerm

摘要：	主要围绕Gediminas等的论文，讨论下一代推荐系统的形态

前言

讨论祖先和子孙的问题一向是比较困难的事情，什么是上一代，他们有什么特点？下一代推荐系统到底是什么？前后代有什么不一样，是什么关键特征定义了下一代？本文的重点是，讨论一些论文观点，旨在回答以上的一些疑问从Gediminas Adomavicius和Alexander Tuzhilin的Towards the Next Generation of Recommender Systems: A Survey of the State-of-the-Art and Possible Extensions来看(这篇文章引用率非常高)，我的理解是：

第一代推荐系统主分三类:

content-based,基于内容的推荐
collaborative,基于协同过滤的推荐
hybrid recommendation, 混合型推荐

第二代推荐系统的主要特点是：

user和item的理解
结合上下文信息
支持多维度的评价指标
提供更加有弹性和更少打扰的结果

其人

Gediminas Adomavicius在推荐系统方面有很多研究, 有兴趣可以看看CAREER: Next Generation Personalization Technologies,研究主题包括：

多准则推荐系统
推荐查询语言
推荐的多样性
时效数据的聚类
上下文感知推荐
用户偏好对推荐的影响
推荐算法的稳定性
数据特性对推荐的影响

Yang Cheng

行万里路，读万卷书

选择content-based的特征

论文

八卦

Pairwise Learning

背景介绍

一些观察

分析

算法

并行化

结果

参考

冷启动问题求解

冷启动问题的解决

启发式方法

Matrix Factorization

Model-based approaches

推荐系统多样性的问题

推荐系统的挑战

Google Ctr预估系统

简介

算法

下一代推荐系统

前言

其人

相关讨论

第一代推荐系统

基于内容的推荐

协同过滤推荐

混合方法，主要是混合基于内容和协同过滤的方法。变种非常多，这里暂不讨论

第二代推荐系统

参考文献