主页 > 论文降重资讯 > 基于用户情境的高校图书馆书目协同过滤推荐研

基于用户情境的高校图书馆书目协同过滤推荐研

admin 论文降重资讯 2021年01月10日




面对海量数据的冲击,“信息超载(InformationOverload)”的现象愈发明显,越来越多的用户需要个性化和“一对一”式的信息推荐。高校图书馆在引入个性化信息推荐领域取得了一定的研究进展,但由于图书馆在进行书目推送时,以图书馆为主体导致忽略了高校用户的阅读心理和需求,已有的书目推荐策略为热门书排行榜、热门借阅量及热门检索词等陈旧的方式,缺乏考虑高校用户所处的情境(Context)。高校图书馆进行有效的书目推荐,应充分考虑情境要素对用户偏好的实时性的影响。情境要素包含用户基本信息、环境及系统多方面的数据。

1相关研究综述

情境可用来描述实体的一切信息,甚至包括复杂的社会网络关系[1]。而用户情境是多个情境要素的集合[2]。DEY[1]认为用户情境要素包括4大类:用户基本特征信息、用户行为信息、用户环境信息、用户应用环境;Ayse?Goker等人[3]在研究个性化服务领域中构建了通用的用户情境模型,包括个人、环境、任务、社会关系及时间五个方面;Youngok?Choi[4]在研究影响用户搜寻策略时,将用户所处的情境分为了六个维度:任务目标、搜索技能、认知程度、任务阶段、任务期限及搜索次数;Niederee等人[5]在个性化服务研究领域,通过任务、认知模式、关系和环境四个方面描述用户情境的要素信息;Adomavicius等人[6]最早将基于情境要素推理的技术应用到推荐系统,并证实了情境要素在推荐系统中的重要作用;Byun等人[7]基于历史情境信息推理出用户偏好,提供个性化的推荐;Si[8]根据用户行为习惯,应用隐马尔科夫模型,提出了情境推理的推荐服务平台。

作为拥有海量知识储备的高校图书馆,承担着向用户提供知识服务的责任,因此针对高校图书馆如何更好地提供知识推荐服务的相关研究层出不穷。汪圳等人[9]针对面向科研人员的数字图书馆知识推荐,引入了科研情境的概念,准确获取科研人员的知识需求,基于科研情境设计了分层过滤的知识推荐策略;余以胜等人[10]在协同过滤算法中同时考虑图书与用户自身的因素,从而提升推荐算法的可解释性、准确性及实时性;王井[11]提取用户的订阅记录,分别计算用户相似性和订阅图书相似性,改进了传统图书馆图书推荐的协同过滤方法;李玉[12]将社会化媒体热点发现引入到高校图书馆书目推荐的研究中,进而通过推理算法从社会化媒体中发现当前学科领域的研究热点,基于获取到的研究热点提出一种结合了当前热点的基于内容的高校图书馆书目资源推荐方法;王欣等人[13]探讨了基于情境感知的图书馆个性化知识服务的理论模式。

综上所述,虽然高校图书馆在面向高校用户群体引入了信息资源推荐的服务,但在个性化推荐领域还处于探索阶段,并没有考虑用户全方位多维度的信息要素。考虑情境要素对图书馆用户群体的偏好会产生影响,本文引入情境感知技术,基于用户情境要素推理用户的阅读偏好,从而开展基于用户情境要素推理的高校图书馆书目协同过滤推荐研究。

2高校图书馆书目推荐系统要素分析

2.1用户分类

高校图书馆系统主要作用于日常学习和工作科研,用户主要包括在校学生、在校教职工两大类。随着用户对图书馆系统使用程度的加深,用户的信息完整度得到完善,同时使用的推荐方法也会发生变化。根据用户信息的完整程度,对用户进行了定义:

U=(U1,U2,U3)

U1指游客用户,用户信息完整度为0;

U2指新注册用户,有基本注册信息,没有历史行为或历史行为极少;

U3指情景信息齐全用户。

2.2推荐内容分析

用户的信息完整程度决定着个性化书目推荐的准确程度,针对图书馆三类用户,系统推荐内容各有不同。

(1)游客用户U1

游客用户首次登陆图书馆系统,后台无用户任何信息,可以对用户进行当前热门书目或新购书目推荐,或根据其搜索信息推荐关联性强的书目。

(2)新注册用户U2

对于新注册用户,系统缺少其历史行为偏好信息,可根据其基本注册信息构建用户偏好模型,并查找相似用户群,识别用户偏好,据此推荐书目。

(3)情景信息齐全用户U3

对于情景信息齐全用户,图书馆系统会根据其历史行为、当前情境、基本特征等多个维度建立偏好模型,并对比相似用户群,给出推荐结果。

2.3推荐流程分析

针对用户的不同,图书馆书目推荐实现流程也不完全相同,主要推荐流程包括三个部分。

(1)用户偏好推理

用户偏好是指用户对于某类书目产生的主观偏好、实际需要、订阅习惯等行为的总称。要对用户进行书目推荐,最重要的是识别用户的偏好。识别用户偏好是进行推荐的基础,也是后续进行相似性计算、目标用户评分预测、推荐结果筛选等步骤的前提。用户偏好的推理在推荐系统的设计与实现中占有重要作用。

(2)目标用户与信息完整度高的用户之间的相似性计算

系统目标用户Ua的书目偏好受其已有的习惯、思维或基础特征等要素影响,这些影响因素对相似用户的影响程度是几乎相同的,因此可以根据相似用户的书目偏好推理目标用户的书目偏好。

相似性计算方法主要有三种:余弦相似性、皮尔森相似性和改进的余弦相似性。改进的余弦相似性克服了余弦相似性、皮尔森相似性的缺点,是最常用的相似性计算方法。因此,本文选择改进的余弦相似性计算方法计算目标用户与已知用户群之间的相似性。

因此用户相似性计算表达式为:

其中,Ua为目标用户,Ui为系统中已有用户群中的第i个用户。

最后选择相似性高的N个用户组成相似用户集AUa,将其偏好定义为目标用户的偏好。

(3)目标用户的偏好评分预测

个体存在差异,仅根据用户之间的相似性判断目标用户的偏好会存在很多误差,所以根据个体实际情况判断其对某书目的偏好程度也是推荐流程中非常重要的过程。本文用目标用户对某书目的偏好评分表示对其偏好的程度,评分预测的过程如下:

其中,Si,j指目标用户i对书目j的偏好评分;

指目标用户i对所有书目偏好评分的均值;

AUi指目标用户i的相似用户集;

Su,j指目标用户的相似用户u对书目j的偏好评分;

指相似用户u对所有书目偏好评分的均值。

通过计算可以得出用户对书目的偏好程度评分,并进行排序,再进一步选择高分书目向用户推荐。

图书馆书目系统过滤推荐实现流程如图1至图3所示。 图1图书馆书目系统过滤推荐流程图(针对U1型用户)  下载原图 图2图书馆书目系统过滤推荐流程图(针对U2型用户)  下载原图 图3图书馆书目系统过滤推荐流程图(针对U3型用户)  下载原图

为了实现基于用户情境的协同推荐,系统首先对目标用户进行建模,U3型用户可以进一步提取其对书目类型的偏好;其次应用改进的余弦相似性的计算方式,筛选系统已有用户群中与目标用户相似的用户,组成相似用户群,并进一步构建相似用户群偏好模型;最后在相似用户群的偏好基础上,计算目标用户对书目的评分,选择得分高者对用户进行推荐。

3特定情境要素推理下的用户偏好模型构建

用户偏好是在多种情境因素影响下形成的。即使是同一个用户,在不同的情境下,其偏好也是不完全相同的。情境要素对用户偏好的影响有非常重要的作用。因此,本文在进行用户偏好推理的过程中,利用贝叶斯推理理论,构建了基于用户情境要素的用户偏好模型。

3.1用户情境要素分析

本文选取的高校图书馆用户情境要素主要有以下三类:用户基本信息(Ubasic)、用户历史行为(Uhis)及用户当前情境(Ucontext)。

用户情境模型表示为:Context={Ubasic,Uhis,Ucontext}

其中,Ubasic={Sex,Age,Job,EB};Uhis={HB,HS,HD,EV};Ucontext={Time,Place,FE,PA}。用户情境要素的说明如表1所示。

3.2用户偏好书目类别及特定情境下被选择概率表示

不同用户的偏好书目的类型不同。依据《中国图书馆分类法》对图书的类别进行划分,即五大部类、22个大类。根据用户偏好书目的分类,结合用户情境要素,目标用户a对每一类书目类型的偏好概率用BPa(k.i,j)、HPa(k.i,j)、CPa(k.i,j)表示,其中BP表示在用户基本特征数据下用户偏好概率。k表示第k个要素,i表示第k个要素的第i个分类,j表示第j个书目分类;HP、CP分别表示在历史数据和当前数据条件下的用户偏好概率;则目标用户对第j类书目里每个书目的偏好概率分别为BPj,p、HPj,p、CPj,p。用户偏好概率作为贝叶斯网络推理的先验数据,由系统后台大数据计算得出。 表1用户情境要素的含义和说明导出到EXCEL 用户情境类别情境要素说明UbasicSex图书馆用户的性别,Sex=<Sex1,Sex2>;Sex1与Sex2分别代表男性和女性Age图书馆用户的年龄,Age=<Age1,Age2,Age3,Age4,Age5>;Age1至Age5依次对应用户的年龄段为:小于22岁、23岁~25岁、26岁~30岁、30岁~50岁、50岁及以上Job图书馆用户的职业,Job=<Job1,Job2,Job3,Job4,Job5,Job6>;依次代表本科生,硕士研究生,博士研究生,教职工,退休人员,其他EB图书馆用户的教育背景,EB=<EB1,EB2,EB3,…,EBn>,分别表示所在专业UhisHB借阅HS浏览HD收藏EV用户评价过某类型书目,EV={NS,MS,YS},NS:不满意,MS:中立,YS:满意UcontextTime时间,Time=<Time1,Time2,Time3,Time4>,依次对应早晨,中午,下午,晚上Place地点FE借阅日期PA借阅目的,PA=<PA1,PA2,PA3>,依次表示工作,学习,休闲娱乐

3.3用户偏好模型构建

选择用户基本特征、历史行为、当前情境三个情境维度,利用贝叶斯网络推理,本节分别构建了基于基本特征推理的用户偏好子模型、基于历史行为推理的用户偏好子模型、基于当前情境推理的用户偏好子模型。在此基础上,考虑并计算了三个维度构建的偏好子模型对于用户偏好的影响权重,构建了包括基本特征推理、历史行为推理、当前情境推理的用户多维偏好模型。偏好模型构建的整体思路如图4所示。 图4用户多维偏好模型构建流程  下载原图

(1)基于用户基本信息的用户偏好概率

基于用户情境的高校图书馆书目协同过滤推荐研究

以目标用户基本信息作为子节点,用户偏好作为父节点构建的贝叶斯网络拓扑图,其中每一子节点都有一个用户偏好概率。这些概率的大小真实反映着用户的实际偏好程度。用户在基本信息B条件下偏好书目Cj的概率计算方法为:

根据公式3可计算出用户在基本信息条件下对每类书目的偏好概率,取其中最大值作为用户在基本信息条件下的偏好推荐方案。

(2)基于用户历史行为的用户偏好概率

基于用户历史行为的用户偏好概率的计算方法与基于用户基本信息的用户偏好概率计算方法相同,用户在历史行为H条件下对书目Cj的偏好概率计算方法为:

根据公式4计算用户在历史行为条件下对每类书目的偏好概率值,选取最大值作为最佳推荐方案。

(3)基于用户当前情境的用户偏好概率

除了用户基本信息和历史行为,用户当前情境对用户偏好的影响也非常大。其计算方法与以上两种概率计算方法相同,用户在当前情境N下对书目Cj的偏好概率计算方法为:

根据公式5计算用户在当前情境下对每类书目的偏好概率,取计算结果的最大值,作为用户在当前情境下的偏好推荐结果。

(4)用户多维偏好模型构建

一般情况下,用户基本特征、历史行为、当前情境等单一因素条件下分析得出的推荐方案具有一定的准确性,但是往往会与实际情况存在较大误差,影响因素之间的作用是交互的,因此综合多因素考虑用户偏好会使结果更精准。论文通过数理统计法在三类模型前加权重系数,使用户偏好模型更符合用户实际需求。

基于情境要素推理的用户多维偏好概率模型如公式6所示。

分别为基于基本特征、历史行为、当前情境的三类用户偏好概率模型的权重系数。根据公式6计算用户U对每类书目的偏好概率,选取最优值作为推荐方案。

4应用实例及实验分析

4.1应用实例

本文提取长安大学图书馆的借阅记录作为样本群,并随机选取一条借阅记录作为研究样本,样本用户情境信息如表2所示。 表2样本用户情境信息导出到EXCEL 用户情境类别情境要素说明UbasicSexSex=<1,0>;样本为男性AgeAge=<0,0,1,0,0>;样本年龄在26~30岁JobJob=<0,0,1,0,0,0>;样本为博士EBEB=<0,0,…,1,…,0>,样本为交通运输规划与管理专业UhisHBHB=<U459.9/C9,O411.1/C66=4,TU984.11/C173,…>HSHS=<HS1,HS2,HS3,…>HDHD=<TU4/C143,TU43/C10=2,TU4-44/C13=2,…>EV用户对书目评价历史EV={NS,MS,YS}UcontextTimeTime=<0,0,0,1>,样本在晚上进行的系统操作Place图书馆FE20191220PAPA=<0,1,0>,样本借阅图书进行学习使用

由于图书馆现有系统功能的局限性,情境信息中的Place和PA均为固定值。

得到样本用户个性化推荐结果如表3所示。 表3不同算法下样本用户书目推荐结果导出到EXCEL 推荐算法推荐书目编号Pj,p推荐算法推荐书目编号Pj,p基于用户基本信息的推荐0.512TU43/C10=20.912基于用户历史信息的推荐0.385U459.9/C90.971TU984.11/C1730.892O241.82-39/C350.969TU311.4/LDY0.873O411.1/C66=40.932U459.9/C90.871TU984.11/C1730.900U45/C190.871U491.1/C1380.778U459.3/C10.870TU311.4/LDY0.760TU4/C1430.867D61/C460.706O411.1/C66=40.824O151.21/C140.699基于用户当前情境的推荐0.103C93/C180.761用户多维偏好推荐\U459.9/C90.820I264.9/C40.703TU984.11/C1730.803F0/C1340.678O411.1/C66=40.781U459.2/C550.631U459.2/C550.750H319.9:G/C50.599TU9/C100.701TU4-65/C60.564TU4/C1430.650U412.36/C520.550O411.1/C66=40.647TU9/C100.549U45/C190.647

通过各类算法计算目标用户对书目的偏好概率,取前八项推荐结果,并与该用户日常借阅记录作对比,结果符合其借阅规律,其中采用多维推荐算法得出的推荐结果在其借阅记录中全部出现,表明该算法更符合目标用户的借阅规律。

4.2实验评价及结果分析

一般可根据准确率(Precision)和召回率(Re-call)来评价推荐结果。召回率是指符合用户偏好的推荐书目数量在读者偏好集中的比例;准确率是指符合用户偏好的推荐书目数量在总推荐书目集合中占的比例。

召回率和准确率的计算公式如公式7、公式8所示。

其中Re为召回率,Pr为准确率,Li为符合用户实际偏好的书目总数,Ti为用户i偏好集中书目总数,M为样本用户总数,N表示推荐书目的总数。

二者调和平均数:

当F值越高时,推荐效果越好。

以借阅记录为基础,选取部分用户作为推荐模型测试者,提取测试者反馈数据,代入公式7至公式9,得不同推荐模型的评价结果如表4所示。 表4不同推荐模型的评价结果导出到EXCEL 推荐算法召回率Re准确率Pr调和平均数F基于用户基本信息的推荐0.8330.7500.789基于用户历史信息的推荐0.7710.6540.708基于用户当前情境的推荐0.3450.2380.282用户多维偏好推荐0.8510.8030.826

调和平均数F越高,说明推荐准确度越高。从表4可知,采用多维偏好模型进行书目推荐的F值高于其他模型算法,推荐准确度更高,可靠性更好,较其他方法更具有优越性。

5结语

本文针对图书馆网站拥有海量知识资源,“信息超载”致使用户需要花费大量时间和精力搜寻需求的信息这一问题展开研究,设计一种基于用户多维情境要素的高校图书馆书目推荐策略。图书馆网站推荐模块可以根据用户的偏好向用户主动推荐书目,通过实验表明该方法推荐的书目具有一定的准确性,做到了以用户为中心,满足用户的个性化信息需求。如何将该推荐策略应用于图书馆系统,是下一阶段研究的重点。



标签: