百相网

搜索
查看: 147|回复: 0

热点挖掘

[复制链接]

2

主题

3

帖子

7

积分

新手上路

Rank: 1

积分
7
发表于 2022-11-30 11:21:27 | 显示全部楼层 |阅读模式
导语 随着网络的发展,各类平台每天产生大量内容,信息过载现象严重,而把用户普遍感兴趣的热点内容及时准确的推荐给用户是非常有意义的事情。1 喜闻乐见的事情能够增加平台消费指标,2 流量激励促使生产者积极发文,3 热点运营体现产品调性,强调平台价值,4 传播真善美,产生积极的社会影响。 本项目成果作为召回内容用于推荐场景中,通过abtest实验取得显著正向的效果,已全量上线到具体业务中。
1 热点框架
在接入外部热点的同时,我们会从UGC内容挖掘热点。多路源热点聚合、热点热度计算、热点地域判别、热点分类、热点到业务内容召回、热点应用分发等流程。本文主要介绍UGC内容热点挖掘。   



热点框架

2 热点挖掘
目前我们主要基于UGC内容消费数据做热点近实时挖掘,热点挖掘有爆发词检测,内容过滤,内容聚合,主题抽取,热度计算等过程,我们今天主要介绍热点挖掘的两大难点:内容过滤和内容聚合。



热点挖掘流程

2.1 内容过滤 ugc内容能够及时提供丰富的数据供热点挖掘。但是也存杂质很多,表现在:  1 内容质量良莠不齐。 2 数据类型丰富,广告、标题党内容漫天飞舞,热点相关的内容占比极少。3 内容不规则,网络用语、火星文频频出现。4 内容很短,特征稀疏   

Zara厚外套40元!毛衣才30元!再不抢就没有了!!
家长注意!这种网红玩具可能有毒
广告、标题党
帮忙砍一刀 ,求求了
睡王暂时领先,懂王拿下摇摆州 “勤王军”冲入美国国会 點一下 焘baӧ限量优惠
网络用语 火星文

如何从大量无关的内容中挑选少量的新闻资讯内容,我们的解决方案是通过内容分类来筛选。优化思路如下:  

  • 1 融入通用知识,弥补训练语料不足的问题
针对短文分分类,标注语料不多的情况下,我们选择bert做fine tuning。 融入维基百科语料的通用语言知识,再根据少量标注语料微调模型,弥补训练语料不足的问题。  



bert fintuning


  • 2 使用领域适应(domain adaptive)做future pretrain,融入UGC语料知识
由于UGC语料和维基百科语料差异大,维基百科规范,比如睡王往往指代辽穆宗。UGC语料更多是网络用语等特点,比如睡王往往更加倾向于指拜登。 我们通过融入目标语料,让模型知道睡王不止指辽穆宗,同时也有可能指拜登。  

维基百科:辽穆宗虽讨厌女色,而无所出,但却经常酗酒,天亮才睡,中午方醒,因此长时期不理朝政,人称之为“睡王”
UGC语料:睡王拜登暂时领先懂王





  • 3 使用任务自适应(target adaptive)做future pretrain,让下游目标指导模型预训练
上面使用领域适应预训练模型虽然融入了UGC领域知识。但是没有根据任务指导预训练模型,因为不同的下游任务,句子中重要成分不同。比如在情绪分析中,“喜欢”、“厌恶”等情感词往往是句子的关键成分。在我们场景中,需要识别广告、新闻资讯、标题党等内容,比如在广告中,“发货”、“互砍”等往往是关键成分。


Bert的MLM模型中,采用随机mask一部分字,然后通过上下文语境来预测这个字,内容被平等训练,导致浪费大量的计算资源,下游任务关键成分训练不够充分。如果让模型预测下游任务重关键成分字,使预训练模型充分学习到下游任务的重要信息,不仅可以减少预训练的计算资源,也能提高下游任务准确率。   


如何提取任务关键成分,我们采用信息增益做特征筛选,得到分类关键词。


这里信息增益理论不做主要介绍,总的来说,如果一个词在某个类别中出现概率很大,其他类别出现的概率小,这种词信息增益高,往往是分类任务中的关键特征词。   



  • 4 根据下游任务分类置信度,动态抽取任务关键成分
上面使用信息增益抽取关键词词典,会导致抽取比较粗躁,不同句子中,关键词往往是动态变化的。比如如下第二句“发货”不是关键词。   

活动即将截止,疫情区域不发货
冷空气发货+回南天!东莞今年将现“最冷春节”

解决方案是从每个句子中,动态挑选关键成分。参考刘知远老师团队的论文:Selective Masking for Task-Guided Pre-Training EMNLP 2020.10,根据字对分类结果的置信度来衡量这个字的重要度。  假设一个文本序列S由n个字组成,字的重要度用 S(wi)表示。设计一个辅助序列s', 每次按顺序扔进一个字,比如当前是 第i步, 此时辅助序列为s'i-1 wi ,那么当前词 wi的打分便可以通过下式计算。  


其中,yt表示任务t的标签,P(yt|s)表示给定原始序列能得出正确标签的置信度。P(yt|s'i-1 wi)表示给定包含wi在内的部分序列能得出正确标签的置信度,这一项越大表明 wi越重要。 所以 S(wi)越小表明 wi越重要,即加上 wi后的辅助序列与原始序列对任务的贡献越相近。   




  • 总结
1. 做微调(Bert-Fine-tuning)
  优化1 弥补训练语料不足,引入通用语言知识(睡王->辽穆宗)   
2. 使用领域适应再训练Bert. (Bert-Domain-Adaptive)
  优化2 使用ugc语料做领域适应训练,学习UGC场景知识(睡王->拜登)   
3. 基于任务适应-挑选关键字训练Bert ,根据具体下游任务,指导Bert训练。(新闻-疫情防控 广告-发货)
  优化3 信息增益挑选任务静态关键词.(Bert-Task Adaptive-IG)   
  优化4 基于任务指导动态挑选关键字.(Bert-Task Adaptive-TG)   


2.2 内容聚合 同一事件的内容表达各异,会导致相同事件重复出现,也会导致热度分散,容易漏过热点。需要把相同事件的内容聚合。   

1 棠德西路、棠安路交汇处发生地陷,各位邻居经过时请注意安全。可能会造成西门路段塞车,车主们请提前绕行!
2 广州天河发生地陷,一泥罐车陷入坑中 3 突发! 广州天河棠德西路今早发生地陷

具体聚合方案分为特征抽取和聚类两步  


2.2.1 特征抽取 文本特征抽取方法有很多,词袋模型、word2vec pooling、主题模型、基于内容消费行为序列构图、内容理解等。因为热点挖掘对时效性要求高,需要尽快的挖掘热点主题,所以我们没有基于用户行为去理解内容。在前期无标注数据的情况下,我们使用主题模型抽取特征。正对主题模型的诸多缺点,我们使用深度模型做特征抽取,具体介绍如下:   

  • 1 主题模型抽取特征
BTM主题模型抽取特征,我们使用BTM代替LDA,主要原因是外链内容太短,特征过于稀疏,BTM能够使用Bi-Term特征,增加特征量,对短文本相对友好。   这里主要根据文档下词的概率分布p(w|d),学习出主题下词的概率p(w|z)和文档下主题概率p(z|d),既:p(w|d)=p(w|z) * p(z|d) 。我们取文档的主题概率分布 p(z|d)作为文档的特征向量。   


BTM优点:监督,无需标注,可快速投入使用。  缺点:没有语序  文本短,特征太过稀疏  不能一词多义(睡王)  无监督-无教学指导   

  • 2 bert 孪生网络抽取特征
针对BTM模型的缺点,我们采用Bert抽取特征。但是Bert抽取的embedding cos都很相似,无法区分,原因是因为Bert抽取特征只是任务的中间输出,下游任务并没有做内容相似判断加以学习,导致句子的embedding 用距离衡量时没有区分度。   


如何使Bert抽取的句子有区分度,我们构造目标任务:基于孪生网络做内容相似判断。然后采用两个句子做拼接,算分类的方式,参考论文: Sentece-bert EMNLP 2019 .让相近的内容embedding相似,不相近的内容embedding不相似   


如下图可以看出,BTM更多是字面匹配,字面相近的都很相似,字面不同的都不相似,是一个稀疏的网络。孪生网络抽取的特征更有语义梯度,北京疫情能够和上海疫情有一定的相似度。   




  • 3 融入关键词bert网络抽取特征
上面只作了特征句子特征抽取,然后算相似。实际上关键词是否相似很大程度上决定了句子内容是否相似。比如如下case,泥罐车和搅拌车相似,地坑和地陷相似,基本上可以判断内容是相似的。  天河一泥罐车掉入地坑 棠德西路搅拌车发生地陷  我们优化是在句子的特征中融入关键词特征作为句子的新特征,提高内容相似判断的准确率。  
具体步骤:   step1 内容抽取关键词,关键词抽取介绍
                      step2 训练word2vec模型  
                      step3 融合bert-sentence embedding 和 词的embedding,这里采用简单的concat.  
                      step4 融合的两个新句子特征做分类判断是否相似softmax(u,v,u-v)   


总结
1 BTM主题模型  无监督,不需要训练语料,可以快速使用,但是没有序列特征,无多义词等特征。
2 bert孪生网络 Bert-Siamese  解决模型1 BTM模型 无序列、无多义词等缺陷,但是好没有融入关键词相似等先验知识。  
3 关键词bert孪生网络keyword-Bert-Siamese  融入关键词知识,辅助提高模型判别准确率。   


2.2.2 聚类 我们挑选了划分聚类、密度聚类、层次聚类最对比。  评价指标为:AdjustRandIndex,我们把人工聚合打标结果作为验证集,不同聚合算法比较优劣。  


在使用BTM和孪生网络抽取的特征分别用三种聚类算法聚合,使用ARI指标衡量 。  应为BTM是稀疏的,用密度聚合效果最好。但是综合来看,孪生网络特征抽取配合层次聚类效果最优。  划分聚类:Kmeans 。算法不稳定,效果随K初始化的随机而最终聚合效果波动大,K需要设定   密度聚类:Dbscan,距离参数敏感,不同密度的数据,结果差异大,稠密的图聚类效果差。   层次聚类:HAC 相对最优   


总结与展望   从后面挖掘的离线效果来看,ugc挖掘比从外部接入往往能更早的获取到热点,而且能够挖掘出用户真正感兴趣的话题。通过从线上abtest实验,ugc内容挖掘的热点取得显著的正向收益,而且好过外部榜单热点,证明了ugc热点的价值。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|百相网

GMT+8, 2024-12-23 14:31 , Processed in 0.067407 second(s), 19 queries .

Powered by Discuz! X3.4

Copyright © 2001-2021, Tencent Cloud.

快速回复 返回顶部 返回列表