蘑菇街从16年开始做电商直播,一开始公司内部也没有多少人看好,打开直播会感觉像逛夜市,挺热闹挺有趣的。没有太多人当回事情,我那个时候也没有太在意,组里只有一位同学在支持那边,简单做了个模型在线上跑着,后面由于业务发展特别快,同学也主要在支持业务上了。到了18年我们商城全面wide&deep化后,才开始投入更多的人力。 电商直播对比商城的业务特点 蘑菇街主播直播间的每天上新量非常大,大部分的商品在上新之前都没有任何的历史表现数据,且每个款式过的非常快,传统模型中常用的ID类特征变的不太适用了; 用户意图的问题 蘑菇街的直播,主播和粉丝直接的黏性非常高,不仅仅是卖货,我们调研过很多用户,会把直播间开着当背景音乐,就是想听听主播的声音,非常情感化。 这个问题特别好理解,全网都能看到直播马太的问题。这个就导致如果纯看一些效率指标,把几个top主播排好就行了,空间很小。因此,有些公司刚做这个业务,特别是做电商直播,大主播太少的时候,并不建议上什么机器学习模型,人工排都是可以的。 时间段的问题
新人承接问题 因此,一个新用户点击的前几个直播间、如何在人和货直接平衡一些就特别重要; 重点策略 由于马太、时段、用户意图等各种原因,直播样本的bias特别大,因此第一优先级是如何有效的清洗样本,去bias。举例来讲,构建一些简单的统计特征,会发现在样本分布中非常的不均匀,如果简单用等距分桶,区分性很差。 ID类特征的处理 单纯的频次过滤在这个场景没有那么有效,针对不同级别的id,截断策略要有所不同,交叉策略也要有所不同;
loss和特征中增加先验约束 一些重要特殊通过loss约束可以做到单调: 由于直播是公司目前最核心的业务,涉及的面相对比较广,很多技术细节也不方便展开。我们实践的效果是,在初期的时候,停留时长和gmv有明显的提升,但在模型多个迭代中,GMV收益相对于商城比较难以拿到,而在流量结构改善、ctr、停留时长等用户体验指标上有更好的收益。
必须在指出,相对于其他业务,目前的个性化技术在电商直播业务在挑战还是比较大的,产出也相对更难。我们受限于自身技术实力,还有很多想做的事情没有很好的落地,继续努力中,与各位共勉。
|