• 476.50 KB
  • 33页

社区问答的问题交付 港大发的论文

  • 33页
  • 当前文档由用户上传发布,收益归属用户
  1. 1、本文档共5页,可阅读全部内容。
  2. 2、本文档内容版权归属内容提供方,所产生的收益全部归内容提供方所有。如果您对本文有版权争议,可选择认领,认领后既往收益都归您。
  3. 3、本文档由用户上传,本站不保证质量和数量令人满意,可能有诸多瑕疵,付费之前,请仔细先通过免费阅读内容等途径辨别内容交易风险。如存在严重挂羊头卖狗肉之情形,可联系本站下载客服投诉处理。
  4. 文档侵权举报电话:19940600175。
RoutingQuestionstoAppropriateAnswerersin CommunityQuestionAnsweringServicesBaichuanLiandIrwinKingDepartmentofComputerScienceandEngineeringTheChineseUniversityofHongKongShatin,N.T.,HongKong{bcli,king}@cse.cuhk.edu.hk————演讲人:戴耀康 ABSTRACT社区问答(CQA)服务为日益增加的用户提供了一个提问和回答他们本身需求的平台,但在一个固定时期内,未回答的问题仍然存在。为了解决这个问题,本文的目标是将问题发送给适当的回答者,这些回答者有很高的排名,依据先前的回答表现。为了给回答者排名,我们提出了一个称为QuestionRouting(QR)的框架,它包含4个阶段:(1)performanceprofiling,(2)expertiseestimation,(3)availabilityestimation,and(4)answererranking。我们应用这个框架在Yahoo!上做实验。回答数据集和结果证明,如果把问题发送给排名前20的回答者,那么平均每1,713个测试问题就得到至少有一个回答。Keywords:communityquestionanswering,questionrouting 1.INTRODUCTION社区问答(CommunityQuestionAnswering,CQA)服务是一种特殊的问答(QA)服务,它允许注册用户回答由其他人提出的问题。CQA的入口如Yahoo!Answers以及百度知道在过去几年已吸引了众多用户。根据Yahoo!Answers的博客(http://yanswersblog.com/),Yahoo!Answers全球有200,000,000的用户,每天约有15,000,000的访问量。 1.INTRODUCTION正因为CQA入口如此有名,一个重要的有趣问题是这种问答服务是否能够高效地解答用户的问题。为了调查这个问题的答案,我们分别在Yahoo!Answers和百度知道上随机跟踪3,000个新提交的问题以便观察两天后这些问题的状态。我们发现在Yahoo!Answers上48小时内仅有17.6%的问题得到满意的回答。对于那些没有回答的问题,将近1/5得不到回应。对于百度知道,有22.7%的问题是完美解答的。然而,有42.8%的未解决问题根本得不到回应。调查显示,上述两种有名的CAQ入口不能高效地解决用户的问题。 1.INTRODUCTION为了解决这个问题,我们提出在CQA中提出QuestionRouting(QR)框架。这个框架会将新提交的问题发送给那些在短期内最有可能给出答案的用户。QR的概念包含两个含义:寻找(1)能够提供高质量回答的“恰当的”用户;(2)得到问题的用户必须能够快速给出响应,即他们能够有时间及时地回答问题。 1.INTRODUCTIONLiu等人的工作是识别可能为给定问题提供答案的“专家”组,Qu等人的问题推荐与我们的工作相似。但是,在这些论文中,答案质量和用户可用性没有考虑到。最近,Horowitz等人开发了一个名为“Aardvark”的社会化搜索引擎,它“将问题提交给用户的扩展社会化网络中最有可能回答那个问题的人”。其中,扩展的社会化网络包括著名的社交网络站点如Facebook和LinkedIn.与“Aardvark”相比,我们关注的是CQA服务中的社区,而不是提问者的社会化网络。 1.INTRODUCTION本文组织如下。第2部分详细描述了QR框架和该框架下的几种模型。在第3部分,我们描述了实验设置和结果分析。第4部分给出结论。 2.QUESTIONROUTINGINCQASERVICESQA的整个过程如图Fig.1所示。对于一个将被交付的问题,我们首先跟踪入口中的所有用户并建立他们的回答表现文档。这个步骤称为answerperformanceprofiling。然后我们根据候选者的表现文档估计他/她关于被交付问题的专业知识。最终我们根据回答者的专业知识给他们排序。 2.1PerformanceProfiling在这个阶段,我们从回答者的回答历史中建立每个回答者的表现文档。对于在CQA服务中至少回答过一个问题的用户,我们使用他/她曾经回答过的所有问题以及他们所提供的相应答案来建立表现文档。 2.2ExpertiseEstimation在这个部分,我们为估计每个回答者关于qr的专业知识提出3种方法。我们用E(ui,qr)表示用户ui关于新问题qr的专业知识,取值范围[0,1]。E(ui,qr)的值越高,用户所具有的关于问题qr的专业知识越丰富。 2.2.1Expertiseestimationwithoutanswerquality我们采用查询似然语言(QLL)模型作为我们的第一个模型。正式地,用qui表示用户ui所以先前回答过的问题。对于一个新问题qr,ui关于qr的专业知识定义为qr能够从qui产生的可能性:用Jelinek-Mercer平滑,有其中,C是所有问题的集合,是调整平滑权值的权重系数,tf(w,qui)指qui中词项w的词项频率,tf(w,C)指C中词项w的词项频率。根据经验值,我们在实验中将设为0.8 2.2.2Expertiseestimationwithanswerquality以上模型假定如果用户之前回答过很多类似的问题那么该用户就有丰富的关于新问题qr的专业知识。然而,它没有考虑先前回答的质量。一个用户可能回答大量与qr相似的问题,但是我们不能得出结论,该用户一定是问题qr的专家,如果先前大多数答案都是低质量的。为了得到一个更加精确的预测,我们在专业知识估计中使用了用户的回答质量。因此,其中,Q(ui,qr)反应用户ui对于问题qr的回答质量,是加权系数。 2.2.2Expertiseestimationwithanswerquality我们提出的两个模型从用户ui先前答案的质量中估计Q(ui,qr)。基本模型是明确的:它假定用户关于新问题qr的回答质量是该用户先前回答过的相似问题的加权平均回答质量。定义如下:其中,qj~ui表示用户ui回答过的问题,sim(qj,qr)表示问题qj和qr之间的余弦相似度。 2.2.2Expertiseestimationwithanswerquality我们使用向量空间模型表示每个问题,每项的权值由它的tf-idf值决定。然而,这个模型可能有数据稀疏,尤其是当一些用户仅回答一个问题时。为了更好的利用已知知识,我们借助协同过滤中的相似融合思想,该思想利用其他相似用户关于相似问题的回答质量来平滑基本模型。 2.2.2Expertiseestimationwithanswerquality在平滑模型中,有两个用户间的余弦相似度计算根据每个用户的以下特征:用户所拥有的总分数,用户所提供的总回答数,用户所拥有的最优回答数,用户提问过的问题数以及用户所得到的星级数。 2.2.2Expertiseestimationwithanswerquality我们使用逻辑回归来建模用户关于先前回答问题的回答质量。给定一个由用户ui提交的关于问题qj的回答,我们使用aij表示的特征向量。是一个好的回答的概率为P(aij),那么:其中,是回归模型的系数向量。 2.2.2Expertiseestimationwithanswerquality在训练中,我们抽取每个回答的下列特征:Answerlength•Question-Answerlengthratio•#ofanswersforthisquestion•#oftimestheanswerisratedupotherusers•#oftimestheanswerisrateddownbyotherusers•Theanswerer’stotalpointsTheanswerer’sbestanswerratio通过使用核密度估计(KDE),我们利用非单调特征的特征转换。 2.3AvailabilityEstimation假定用户登录Yahoo!Answers时能够为发送给他的问题提供回答,我们的目标是估计用户在问题发送之后的未来几天内是否会登录。我们将这个问题建模为时间序列数据挖掘中典型的趋势分析问题,并使用自回归模型来作出预测。正式地,让A(ui,t)表示ui在时间点t能够回答发送问题的概率,通常t表示一个特定的日子。实际上,当用户在t这天发出至少一个答案时,我们将A(ui,t)设为1,否则A(ui,t)=0. 2.3AvailabilityEstimation自回归模型定义如下:其中,是随机源,称为白噪音(whitenoise),给定一组训练集{A(ui,t),A(ui,t-1),...,A(ui,t-p)}i=1m,其中m是用户的总数,我们能够估计的值。那么,当给定时,我们可以将上述模型应用到预测A(ui,t)的值。因此,对于一段时期T={t1,...,ts}中,每个用户的可用性计算为: 2.4AnswererRanking我们将用户关于qr的专业知识和用户在时间范围T中的可用性视为相互独立的,并使用他们的线性结合作为每个回答者最终的QR得分:然后,根据他们的QR得分对所有回答者进行排名。 3.EXPERIMENTS我们想通过实验调查如下研究问题的答案:1.What’stheinfluenceofanswerqualitytotheperformanceofQR?2.DoestheSmoothedModelgivebetteranswerqualityestimationandtheimprovementofQRperformance?3.Isitusefultoestimateusers’answeravailabilitiesinQR? 3.1DataSetandExperimentalSetup我们的数据集是Yahoo!Answers的Computers&Internet目录下从2010年4月6日到2010年5月14日已解决问题的一个快照。问题主题和回答内容中的停用词已被去除掉。在我们的实验中,5月6号之后提交的问题被视为需要发送的新问题(A集合,测试集),剩余的被视为档案数据(B集合)。在A集中每个问题的groundtruth是,回答者是那些实际上回答了问题的人。如上述描述分开之后(我们也在A集中去除掉那些所有回答者没出现在B集中的问题),A集包含1,713个问题,5,403个回答以及2,891个回答者。B集包含17,182个问题,48,663个回答以及16,298个回答者。 3.1DataSetandExperimentalSetup回顾一下我们使用逻辑回归模型来估计每个回答者关于已回答问题的专业知识。我们采用社区和提问者的选择来避免人工标记。下面回答者被标记为“good”和“bad”。对于B集中的每个问题,回答被标记为"good"仅当以下两个条件满足时:(1)它被选为最优答案;(2)它得到问题所有回答超过50%的rates-up。与此同时,回答被标记为“bad”如果它得到问题所有回答超过50%的rates-down。严格来说,2,153个"good"实例和2,593个"bad"实例作为训练数据来估计逻辑回归模型的参数。 3.1DataSetandExperimentalSetup根据我们的观察(在B集中,一个问题得到一个回答的最长持续时间是2.16天),我们把T设为3.此外,我们设置p=3,意味着前3天的回答记录用于估计用户在第4天的可用性。 3.1DataSetandExperimentalSetup我们将QR的性能和以下方法相比较:我们采用MeanReciprocalRank(MRR)作为评估标准来评估以上方法的性能。 3.2ExperimentResultsTable1显示了由MRR测量的每种方法的性能。这里我们设置α=0.6,β=0.8,γ=0.9 3.2.1Theimpactofanswerquality从表1中我们观察到,利用用户的回答质量能够提升QR的性能。BasicQ和SmoothedQ的MRR值分别是26.99%和33.68%,均高于QLL的MRR值。相似地,BasicQ+AE和SmoothedQ+AE的MRR值分别是26.17%和33.58%,均高于QLL+AE的MRR值 3.2.1Theimpactofanswerquality为了探索α值对QR性能的影响,我们固定β=0.8并测试不同的α值,结果如图2.首先,我们观察到,当α=0.6时,BasicQ和SmoothedQ都得到最大的MRR值。此外,当α>0.3时,它们的性能总优于QLL的性能。通过这些发现,我们相信用户对于先前回答问题的回答质量实际上为我们找到要发送问题的专家提供很大的帮助。 3.2.2BasicQvs.SmoothedQSmoothedQ性能比BasicQ好因为前者的MRR值大约比后者高出5%。我们认为这归因于使用相似用户在相似问题上的专业知识来平滑用户的回答质量,特别是对于那些回答少量问题的用户来说。Figure2(b)给出了不同β值下SmoothedQ性能的变化(α=0.6),从图中我们发现,β值在很大程度上影响了这种方法的QR质量。当α=0时意味着我们仅依靠相似用户在相似问题上的专业知识来估计用户在将要发送的问题上的专业知识,MRR的值比没有平滑(即α=1)的小很多。当β=0.8时MRR得到最优性能。 3.2.3TheimpactofansweravailabilityestimationFigure2(c)给出了考虑用户的回答可用性时每个方法的性能。第一,仅根据用户的回答可用性发送问题是非常不精确的:当γ=0时仅有约千分之一的QRs是成功的。第二,当γ设置为0.9附近时,QLL+AE,BasicQ+AE和SmoothedQ+AE性能最优。当γ=0.9时,这些方法的MRR值为4.11%,3.44%,和4.04%均大于相应方法不考虑用户可用性估计时的值。因此,我们能够通过用户可用性估计来提高QR的性能。 4.CONCLUSIONS在本文中,我们介绍了在CQA服务中QuestionRouting的概念并提出了一个QR框架,该框架同时考虑了用户的专业知识以及用户在某个时间范围内提供答案的可用性。我们在Yahoo!Answers数据集上进行了实验,结果表明,利用回答质量能够很大地改进QR的性能。此外,利用相似用户在相似问题上的回答质量提供了一种更精确的专业知识估计因此带来了更好的QR性能。与此同时,用户的回答可用性估计也能促进QR性能的改善。在我们的实验中最优MRR值是0.0541,意味着平均每个测试问题会得到至少一个回答如果我们将它发送给排名前20的用户。考虑共有16,298的回答者排名,结果表明,我们的QR框架有能力将新的问题发送给那些在短时期内将会提供答案的用户。 5.ACKNOWLEDGMENTSThisworkissupportedbytwograntsfromtheResearchGrantsCounciloftheHongKongSAR,China(ProjectNo.CUHK4128/08EandCUHK4154/09E) 6.REFERENCES[1]D.HorowitzandS.D.Kamvar.Theanatomyofalarge-scalesocialsearchengine.InProc.ofWWW’10,2010.[2]X.Liu,W.B.Croft,andM.Koll.Findingexpertsincommunity-basedquestion-answeringservices.InProc.ofCIKM’05,2005.[3]J.nengHwang,S.rongLay,andA.Lippman.Nonparametricmultivariatedensityestimation:Acomparativestudy.IEEETrans.SignalProcessing,42:2795–2810,1994.[4]M.Qu,G.Qiu,X.He,C.Zhang,H.Wu,J.Bu,andC.Chen.Probabilisticquestionrecommendationforquestionansweringcommunities.InProcofWWW’09,2009.[5]G.SaltonandM.J.McGill.IntroductiontoModernInformationRetrieval.McGraw-Hill,Inc.,1986.[6]E.Voorhees.Thetrec-8questionansweringtrackreport.InTREC8,1999.[7]J.Wang,A.P.deVries,andM.J.T.Reinders.Unifyinguser-basedanditem-basedcollaborativefilteringapproachesbysimilarityfusion.InProc.ofSIGIR’06,2006.[8]C.ZhaiandJ.Lafferty.Astudyofsmoothingmethodsforlanguagemodelsappliedtoinformationretrieval.ACMTrans.Inf.Syst.,22(2):179–214,2004.