个性化推荐服务中用户兴趣模型研究 兴趣模型

摘要提出了种利用用户浏览页面集容信息浏览信息隐式地创建用户兴趣描述件方法

通对用户浏览b页面进行兴趣分析并与对用户浏览浏览分析相合得到了用特征矩阵表示用户兴趣模型

采用层次聚类算法和k聚类算法相结合综合聚类算法进行聚类得到用兴趣分类树表示用户兴趣模型

采用是隐式创建用户描述件方法减少了因用户参而带系统噪声保证了所创建用户兴趣模型准确性。

关键词用户兴趣模型浏览容;浏览行;兴趣分类树人们正寻种将用户兴趣信息主动推荐给用户对不用户提供不策略和容模式即性化信息方式。

用户兴趣模型是性化系统关键部分用户兴趣描述准确与否直接定着性化推荐质量坏。

提出了种利用用户浏览页面集容信息浏览信息隐式地创建用户兴趣描述件方法

方法用户浏览b页面信息和行信息作数据采用b挖掘方法分析得到较准确用户兴趣描述减少了由用户参与而带系统噪声保证了所创建用户兴趣模型准确性。

基b浏览容和行分析相结合用户兴趣模型用户兴趣模型创建程包括b浏览分析和b浏览分析两部分流程图如图所示。

用户兴趣模型创建流程图b浏览分析就是采用b聚类分析方法用户浏览b页面集进行容聚类得到用户兴趣页面集;b浏览分析是对用户浏览页面信息进行分析得到用户对单页面兴趣浓。

将二者相结合就得到了用户兴趣主题类别及对每类主题兴趣即用兴趣分类树表示用户兴趣模型基b浏览用户兴趣分析用户兴趣模型描述所基b浏览容是指用户浏览页面信息它被用基容聚类分析

这些页面信息主要b器端首先根据用户浏览日志记录得到单用户浏览历史页面RL然从数据库器取出这些RL对应b页面作对浏览兴趣描述数据。

浏览信息数据预处理与数据库结构化数据相比b档具有有限结构即使具有些结构也是着重格式而非档容。

外档容是人类所使用然语言计算机很难处理其语义。

b信息这些特殊性使得现有数据挖掘技术无法直接应用其上。

这就要对进行预处理抽取代表其特征元数据作档表示形式。

近年应用较多且效较特征表示法是向量模型(VrlV)法。

V将档看成由组词条构成对每词条根据其重要程赋予定权重。

因所有用挖掘页面档都可以用词条特征矢量表示。

要将表示向量向量就先要将分词由这些特征词作向量维数表示初向量表示完全是0、l形式即如出现了该词那么向量该维l否则0。

这类方法无法体现这词作用程所以0、l逐渐被更精确词频代替词频分绝对词频和相对词频

绝对词频即使用词出现频率表示;相对词频规化词频其计算方法主要运用公式目前存多种公式我们可采用种比较普遍l公式我们把用挖掘页面档作档集合。

这样对档集合任档采用向量模型表示其档特征向量数档特征向量档权值。

页面相似函数采用向量模型表示数据必须选择计算两特征矢量相似性相似函数。

现常用方法有欧几里德距离、曼哈坦距离和夹角余弦函数。

我们这里采用夹角余弦函数。

但是计算可能会遇到用比较两特征矢量长不样我们可以采用添零补齐方法使两者长致。

夹角余弦函数如下其(X)表示页面X与相似与表示X与对应特征词权值。

页面X与值越相似(X)值越;反则越。

3基浏览用户兴趣分析研究表明用户很多浏览行都能很地反映用户兴趣

献[6]指出用户很多动作都能暗示用户喜如询、浏览页面和、标记签、反馈信息、击鼠标、拖动滚动条、前进、退等。

献[7]研究指出用户访问停留问、访问次数、保存、编辑、修改等动作能够揭示用户兴趣

这些行究竟怎样反映用户兴趣我们要对其进行量化估算。

3浏览行分类从表面上看能揭示用户对页兴趣()浏览行很多但我们分析发现起关键作用是两种行页上浏览()(简称行)和翻页拉动滚动条次数v()(简称V行)。

原因有三)询、编辑、修改等行必定增加页浏览和翻页次数因能够通者接得到反映。

)执行了保存、标记签等动作页面若真用户关心通常以会被多次调出重新浏览故可体现访问次数。

3)击鼠标动作不被考虑因简单动作不能有效揭示用户兴趣

3浏览行参数计算了到V与页兴趣定量关系通分析和实验定采用元线性回归方法作页兴趣建模分析工具。

线性回归分析方法分析研究对象变化趋势基础上建立函数模型从而研究对象存相依存关系。

2 次访问