论文笔记：Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model-FinClip官网

论文笔记：Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model

网友投稿 913 2022-08-23

论文笔记：hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model

论文笔记：Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model

感想

这是一片IJCAI 2018的论文，一开始看到这个东西的时候，我感觉还是比较新的，把社交网络的hashtag和tweet的网络结构融入到embedding中，做了一个network embedding和content结合的东西。这应该是我2018年看得比较好的hashtag方面的论文了。希望后面有跟多关于这方面的论文，因为本人也是研究社交网络里面的hashtag的。目前还没有找到开源的源代码。

介绍

Hashtag在许多社交平台上扮演着信息扩散的作用（information difusion），它能够组织信息（organizing messages），突出主题（highlighting topics）。那Twitter作为一个例子，大约有2.4亿活跃用户，每天发布了超过5亿条tweet，1/4的tweets打上了hashtags。Hashtags是基于关键字的tags，用于描述tweet里的内容，例如#superbowl，#nfl等等。Hashtags有多种用途，包括品牌推广（brand promotion），micro-meme discussions和tweets分类。另外，随着tweets的数量变得非常大，hashtags也可用于促进信息检索，使tweets更容易查找和获取。因此，hashtags的知识发现在针对性的推荐（targeted recommendations），内容组织和事件分析（event analysis）等许多应用上非常重要。

micro-meme：本人也不怎么理解，我这里查了资料，是这样说的Users on Twitter have developed a tagging culture of placing a hash symbol (#) in front of short strings, called hashtags, on their posted messages, called tweets. Since then, a phenomenon of tagging which we call micro-meme has arisen. 意思是用户形成了一种为tweets打hashtags的文化，我们把这种tagging行为叫做micro-meme。

不管它的价值和意义，学习hashtags的有意义且有效的表示以及他们相关的文本（tweets）仍处于早期阶段，是由于一下的一些挑战引起的：1）不可控制的hashtags的创造和接纳（uncontrolled creation and adoption of hashtags），着导致了数据稀疏，歧义，同义的问题。2）结构关系，例如hashtags之间的共现性以及共享hashtag的tweets。这反映了至关重要的语义信息，但是怎样对这些异构关系建模是一个意义重大的任务。（3）除了结构关系信息，内容信息在hashtags的语义模型上也扮演着一个重要的觉得。可是，段文本的本质会产生特别稀疏的bag-of-words表示，限制了后面的学习表示。总之，为了更好的学习hashtag表示，急需要发展去综合考虑异构信息并且共同学习不同对象的表示的技术。

为了解决这些问题，我们调研了hashtag embedding问题并且提出了一个层级的带有异构关系的embedding框架，叫做Hashtag2Vec。我们首先根据co-occurrence关系建立了一个hashtag网络。如果两个节点出现在某个tweet上，我们就把这个两个结点连接起来。每个hashtag有两极层级文本信息，分别是tweets和words。和现有的Network Embedding（NE）模型相比。我们的任务的网络包含多种对象（objects）和更多复杂的结构。因此它能够更完整的表示以hashtag为中心的社交文本。为了解决层级异构网络嵌入（hierarchical heterogeneous embedding），我们把embedding模型设计用于不同的关系，能够同时分解结构矩阵和内容矩阵。结构矩阵包含hashtag-hashtag co-occurrence矩阵和hashtag-tweet交互矩阵。内容矩阵是tweet-word矩阵和word-word矩阵。利用tweets作为边信息，我们可以利用hashtag co-occurrence关系。跟DeepWalk的等价的矩阵分解形式一样，分布的hashtag向量表示可以获得。由于DeepWalk和word embedding的分解形式，多种矩阵可以在一个统一的框架同步分解。和其他的NE方法相比，我们的模型可以产生两个重要的副产品，tweets’ embedding和words’ embedding。于是，每种对象的表示学习可以相互促进，例如hashtag，tweet，word。即使Twitter是社交媒体平台上的一个表示，它也可以用于其他社交平台上，例如Facebook，Flickr等等。在真实世界上的数据集的实验证明我们的方法超过了所有其他的最好的方法。

贡献

1. 我们提出了一个层级的embedding方法来对hashtags和tweets建模。 2. 我们进一步提出融合从结构和内容上融合多种多样的异构信息来增强表示学习。 3. 我们在hashtag和tweet clustering任务上用真实世界数据集来评估了我们的模型。并且实验结果显示增长明显。

方法

我们提出用一个联合嵌入框架来学习不同对象类型的表示，叫做Hashtag2Vec。在提出的框架下，Uh表示hashtags, Ut表示tweets，Uw表示单词，这些可以同时学习到，并且相互增强。

如图1，层级异构图G=(V^h∪V^t∪V^w,E^hh∪E^ht∪E^tw∪E^ww)有三种顶点，hashtags V^h,tweets V^t, words V^w; 四种边： hashtag-hashtag E^hh, hashtag-tweet E^ht, tweet-word E^tw, word-word E^ww。给定异构图G，每种类型的关系可以表示为一个邻接矩阵，M^hh, M^ht, M^tw, M^ww。

3.1 基于内容的嵌入

Hashtags的语义意义由他们相关联的短文本传达，例如tweets。在这个工作中，我们首先提出一个层级的基于内容的embedding方法。他被设计用于捕获hashtag-tweet-word层级内容的语义信息。正如图1，它利用了文档表示学习和单词分布表示学习(word distributed representation learning)。

Tweet Level Embedding

Tweets可以自然的被认为是包含了单词的文档。标准的话题模型方法，想NMF，LDA可以被用于tweet话题发现。这里，我们利用了一个神经嵌入模型（neural embedding model）。特别地，为了对word和tweet在嵌入空间上的距离建模，我们定义了他们的联合概率：

其中u_i^t∈R^k, u_j^w∈R^k分别是第i个tweet和第j个单词k维嵌入向量。并且logistic函数σ(∙,∙)用于把表示的相似度转换为co-occurrence概率。Eq.(1)定义了在tweet和word对上的分布p^tw (.,.)，它的经验分布p ̂^tw (.,.)可以从邻接矩阵M^tw求得。我们定义规范化的邻接权重(normalized adjacency Weight)：

其中m_ij^tw是M^tw的一个条目(entry)，为了在embedding空间中近似信息，我们可以最小化这两个分布之间的距离：

其中d(.,.)衡量的是两个分布的不同（dissimilarity），我们可以采用欧几里得距离，损失函数可以写为：

Word Level Embedding

和常规的文档相比，tweets比较简略（shortness），为了应对这个挑战，我们引入了word-word 关系来捕获在局部环境下（in local contexts）的word co-occurrences。目标就是在给定当前单词的情况下，预测上下文单词（context words），上下文单词是固定大小窗口内的单词。我们使用了一个相似的损失函数：

精确的说，p ̂^ww (i,j)是单词和上下文对的逐点的互信息（pointwise mutual information, PMI），通过一个全局常亮的转换（shifted by a global constant）。Word i和它的context j的PMI定义为：

是对所有可能的word-word对求和，由于PMI矩阵是不适定的且稠密的（ill-posed and dense），Shifted Positive PMI (SPPMI)被认为是一个更好的PMI矩阵选择，这里我们有

3.2 Structure-based Embedding

除了内容，hashtag网络的结构也传递着hashtags和tweets的有意义的信息，结构信息（structural information）可以从两个角度来捕获。一方面，hashtags co-occurred应该被嵌入到相似的表示向量；另一方面，hashtags和tweets出现的分布表示也应该相似。因此，我们提出通过结合这两方面来编码结构信息。

Global Structure-based Embedding

Hashtags的网络是通过他们的co-occurrence关系E^hh建立的，它是hashtags的全局结构。邻接权重M^hh是通过co-occurrence的数目来计算的。DeepWalk在嵌入一个网络的节点是有效的，但是他不能学习异构网络的表示。这里我们首先采用DeppWalk用于hashtag网络，但是没有考虑其他类型的对象（objects）。特别地，两个hashtags在嵌入空间的近似可以通过瞎 main的联合概率函数捕获到：

其中u_i^h∈R^K是第i个hashtag的低维向量表示。给定一个邻接矩阵M^hh,其经验分布p ̂^hh (.,.)定义如下：

其中e_i是one-hot向量，其中第i个元素等于1.目标是最小化这两个分布的距离：

Local Structure-based Embedding

另一个重要的关系是hashtags和tweets之间的局部交叉。一个hashtag的话题是通过其打标签的tweets来讨论的，因此，tweets采纳了hashtags应该有相似的话题。和hashtag-hashtag关系相比，hashtag-tweet关系有助于从另一个角度来学习hashtag embedding。我们利用一个联合概率函数来传递co-occurrence信息。

其经验分布p ̂^ht也可以从邻接矩阵M^ht来求得。由于hashtag-tweet关系足够来表示他们的语义近似度，我们直接把邻接权重规范化作为其经验分布p ̂^ht：

其损失函数可以最小化其分布和经验分布之间的距离：

3.3 Heterogeneous Joint Embedding

为了学习异构网络的嵌入（embedding of the heterogeneous network），我们通过下面的目标函数来嵌入四个网络：

其中?是参数的集合θ={U^h,U^t,U^w}, Ω(.)是正则项〖||U^h ||〗_F^2+〖||U^t ||〗_F^2+〖||U^w ||〗_F^2. 且ℷ是超参数。

由于tweets比较短，M^hw非常稀疏。因此我们把tweets用相同的hashtags聚集到假文档上（pseudo-documents），假文档更稠密。为了创造一个hashtag-word 矩阵M^hw，我们定义一个hashtag-word关系的损失函数：

联合嵌入目标函数为：

上面两个目标函数的优化问题可以用梯度下降方法解决。在本文章中，我们采用SGD方法来进行优化更新。

实验

数据

为了验证我们模型的有效性，我们使用了两个tweet集合，Tweet2011和Tweet2015. Tweet2011发布咋TREC 2011microblog track上，Tweet2015是在Twitter.com用爬虫爬去的2015年6.15～6.23日的微博，根据选择的热门关键字爬取的。原始带有主干的（with stemming）数据集经过移除转发处理，处理结果如表1:

评估标准

Hashtags和tweets聚类是在目标推荐（targeted recommendation）,内容组织，事件探测和分析上的关键问题。因此，我们用hashtag和tweet聚类来评估表示相比于其他方法的有效性。在学习hashtags的分布表示之后，hashtags的相似性可以在一个语义空间上来计算。我们的评估基于H-Score,是一个普遍用的评估标准。H-Score反映的是平均聚类内距离的比例，和平均聚类类间距离的比例。H-score 越小性能越好。

Clustering Hashtags and Tweets

聚类结果如表2和表3:

Effectiveness of Model Components

Topic Coherence Evaluation

嵌入模型学习连贯的话题( coherent topics )来促进语义理解。因此，我们通过Hashtag2Vec来评估这个word embedding向量的话题连贯性（topic coherence）。我们采用PMI-Score来评估，因为它广泛地符合人类的判断。PMI-Score计算每个话题下前几个单词的平均语义相关性。Embedding空间的维度作为话题数。给定第K个话题，M个最可能的单词(w_1^k,…,w_M^k)可以通过他们在第K维嵌入维度来获得。PMI-Score的定义如下：

其中（M 2）是前几个单词的结合数量，K是话题的数量。比较结果如图3:

Case Study

参考文献

[1]. Jie Liu, Zhicheng He, Yalou Huang: Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model. IJCAI 2018: 3456-3462

前后端分离了，然后呢？（什么前后端分离）

913 2022-08-23

论文笔记：Hashtag2Vec: Learning Hashtag Representation with Relational Hierarchical Embedding Model

HDU 2013 蟠桃记（递归+水题）

前后端分离了，然后呢？（什么前后端分离）

Android通用流行框架大全（android最火的框架）

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计