论文笔记:A Survey on Tag Recommendation Methods 下

网友投稿 849 2022-08-23

论文笔记:A Survey on Tag Recommendation Methods 下

论文笔记:A Survey on Tag Recommendation Methods 下

感想

因为综述文章太长了,我这里分成了两部分,紧接着介绍。

公开的挑战

我们把这些挑战分为(a)标签语义问题,(b)稀疏性,(3)垃圾邮件(spamming),(d)评估问题。

同义词,一词多义和其它语义挑战

打标签是一个不完美,自然和进化的,在文字和他们的参考之间建立语义联系的过程。Folksonomy的词奔雷就有模糊性,因为不同的用户用不同的方式给目标打上标签。进而产生了语义问题。例如一词多义,同义词和基本级别的变体(“basic level” variation)。

多义词是一个词有许多个相关的意义。例如,标签“apple”可能涉及水果,苹果电脑,或者苹果零售店。在信息检索背景下。多义性冲淡了查询的结果,因为它返回了相关的,但是本质上不相关的物品。在标签推荐中,多义性会导致物品之间的不合适的相连。例如,标签“fruit”可以错误的推荐到苹果产品的一个目标,属性标签fruit和apple频繁的共现,这个问题通过考虑更复杂的标签共现来得到部分解决,即考虑多余两个标签的共现情况。例如,假定“computers”也是一个与目标相关的标签,这个目标已经有“apple”和“computers”标签了,因此,综合起来考虑先前指派的标签或者其它目标对象的上下文证据,这样会化解这个模糊性问题。

同义词或者有相同或相近意义的不同的词,在标签系统中也是一个挑战。当索引和分类目标的时候,它可能会导致冗余性和不一致性。不一致性会使得通过标签索引或检索所有相关目标变得很困难,选择作为标签的项很难和一个用户一致。例如,关于television的标签可以是“television”或者“tv”。当标签是合作创建的(broad folksonomy),用户要么需要广泛的接收惯例,要么接受他们一定处理多种或更复杂的查询,用以满足他们的信息需求。在folksonomies上没有对同义词或者同形同音异义词进行控制。甚至是相同次的不同的遍历,例如plural和singular.一个简单的对这些词的变体的解决方法是进行词干提取(perform stemming),即便找他们词根形式的变体。

模糊性,统一性和多义性是我们在许多情况下控制词汇表的理由,可是,在流行的Web2.0应用中,控制词汇表的做法会完全不合适,因为,Web2.0是一个动态并且增长的系统。

Golder和Huberman提出的另一个挑战是基本级别问题(basic-level problem),即沿着一个现需特殊性描述一个目标,从特殊到一般。例如,“cat,” “cheetah,” 和 “animal”都是描述一个特别实体的合理的方式。可是,不同的人可能以不同的级别来考虑这些项,使得项能有用并且合理的描述问题中的目标。基本级别是和人类交互最直接相关的,对于大多数人,猫科动物的基本级别是“cat”,而不是“animal”或者“siamese”或者“persian”。根据所考虑用户的专业水平,在用户中构成基本层次的系统差异(systematic variation across usersin what constitutes a basic level, depending on the level of expertise of the considereduser)。用户个性化和专业知识水平的差异是通过考虑个性化管理的,用户的兴趣可以从他们打标签的历史获得,并且当为他们推荐标签的时候,也会将其历史考虑在内。

稀疏性和冷启动

稀疏性与数据集的注释覆盖率有关,Bao等人(2007)指出特定页面可能根本不会打标签,例如:

(1)    新出现的网络页面,页面太新了或者不出名。

(2)    页面和Hub页面相关(hub页面的例子包括tumblr.com和hubpages.com),用户倾向于仅仅给hub页面注释。

(3)    不感兴趣的Web页面。

Almeida等人发现在流行的Web2.0应用中,19%的目标都是缺乏标签的,例如Youtube, LastFM和 YahooVideo。即使所有的目标都有标题,可能会从文本特征中提出候选标签,例如目标的描述,但是54%的目标都缺少描述信息。只要标签建议使得内容组织和描述更加方面,这可以成为一个推荐标签的动机,。

冷启动问题是直接和稀疏性相关的,因为缺乏信息,特别是当目标没有标签指派的时候。正如我们在这节讨论的“基于内容的方法”,基于内容的技术是一个缓解这个问题的通常做法,利用其它与目标对象相关的文本特征,可以从用户的反馈中获得信息(例如,单击数据表明哪一个标签是其选择的或者先前未推荐的)。最后,文本信息的完全缺失的情况下,可以利用主要目标的内容,通常是丰富的媒体,例如视频和图像。

Spamming

Tag spam由误导标签(misleading tags)组成,误导标签的产生是为了增加一些资源的可视性,或者是用来迷惑用户。它可以影响大多数推荐算法,因为算法利用标签作为主要的数据源。例如,spammer把错误标签的指派大量的目标,这个标签可能被标签推荐系统认为是高度相关的,因为在数据集上同时出现其他的标签。 Koutrika等人(2008)提出了打标签和用户打标签行为的框架,他们旨在回答例如下面的问题:一个打标签系统在结果退化前可以有多少恶意用户?什么类型的打标签系统最能抵抗得住恶意攻击(malicious attacks)?使用可信的版主找到不好的帖子的努力和影响是什么?(What would be the effort and the impact of employing a trusted moderator to find bad postings?)系统可以自动的保护不受spam的侵害吗?例如,通过利用用户的标签对?研究者提出了一个文档排序算法为一个给定标签指派,这利用的打标签这的可靠性(reliability of the taggers)。研究者得出,社交知识可以使得基于标签的查找对spammers更有容忍度,社交知识的例子只是一个标签的巧合(tag coincidences),即多个用户指派给一个对象相同标签的频率。

评估

有三种评估标签推荐的方法:

(1)    利用先前用户指派的标签作为ground truth的完全自动的方法。

(2)    依赖于目标推荐用户的手工方法。

(3)    依赖于额外用户去评估推荐的手工方法。

方法1已经用于大部分的标签推荐研究中,包括个性化标签推荐和通常的内容推荐。它包含一个对目标预指派标签的子集作为期望答案(expected answer),即作为这个目标的相关标签。对于个性化标签推荐,特别是标签的子集用于期望淡淡。这是最廉价的评估方法,使得我们可以在多个数据集和方法下做实验,可是,它通常标签推荐有效性的下界,而有些推荐的标签,即使不是期望的答案,可能仍然被认为是和给定目标或用户相关的。

相比较下,大多数过去的研究采用了之前的自动方法,一些过去的尝试使用额外的志愿者来品股推荐。可是,这种方法不会比自动方法好。真正的,在个性化标签推荐情况下,这个方法可能根本不充分,额外的评估可能会引入意义偏见(significant biases)和评估的不精确性,这些都是很难隔绝的,可能是分析失效。为此,我们认为最好的方式,先前的个性化标签推荐的工作都没有采用手工的额外志愿者(external volunteers)进行评估。

在基于目标的标签推荐的情境下,用户偏见可能不是关键的。可是,它仍然存在:只有这个目标的拥有者可以最终判断这个标签的相关性。影响评估的程度不清楚,可能不可忽略:如果外来的评估者对目标话题不是非常熟悉,他们的评估不可能对结果有好的影响。为了最小化可能的影响,大量的评估者可能需要去做有统计意义的评估结果,这会增加代价。

于是,即使他可能是对标签推荐的手工评估的描述,特别是对真是应用下的用户,但是自动评估的方法早就建立起来了,这是由于它在大实验中的低代价和可拓展性。在某种意义上,自动评估是模拟人工评估,其中评估者是目标的拥有者自身。在任何情况下,大规模标签的手工评估仍然是一个公开的挑战。

词汇

Taxonomy (生物)分类学,分类系统;

Corpus 全集,文集; 资金,本金;[计]语料库; 器官;

Folksonomies 大众化分类

Stipulating  (尤指在协议或建议中)规定,约定,讲明(条件等)( stipulate的现在分词 ); 规定,明确要求;

Profile   侧面,半面; 外形,轮廓; [航]翼型; 人物简介;

given that  考虑到; 假定; 已知;

参考文献

[1]. Fabiano Muniz Belém, Jussara M.Almeida, Marcos André Gonçalves:A survey on tag recommendation methods.JASIST 68(4): 830-844 (2017)

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:论文笔记:A Survey on Tag Recommendation Methods 上
下一篇:npm scripts 使用指南
相关文章

 发表评论

暂时没有评论,来抢沙发吧~