题名 考虑数据稀疏性的图书推荐协同过滤算法仿真
1
作者
贾丽坤
赵亚丽
黄晓英
肖丹
机构
河北建筑工程学院
清华大学电子工程系
出处
《计算机仿真》
2024年第4期470-474,共5页
基金
河北省大中学生科技创新能力培育专项(202151001010544)
河北省教育厅高校基本科研业务费项目(2022QNJS12)。
文摘
图书推荐算法易忽略数据稀疏性问题,导致推荐结果与用户感兴趣内容之间存在较大的偏差。在考虑数据稀疏性的基础上提出一种图书推荐协同过滤算法,对数据预处理,通过对用户和用户之间综合信任度分析,利用分布估计算法对用户兴趣建模;构建用户兴趣簇类集,划分用户兴趣,从中选择出与检索对象最接近的邻居;计算邻近项目得分,按照从大到小的顺序排列,排名靠前的资源项即为图书推荐结果。实验结果表明,所提方法在推荐500本图书时,用时在12s内,且降低了平均绝对误差和均方根误差,实现了最精准的图书推荐。
关键词
数据稀疏性
图书推荐
协同过滤算法
用户兴趣模型
综合信任度
Keywords
Data sparsity
Book recommendation
Collaborative filtering algorithm
User interest model
Comprehensive trust
分类号
TP399
[自动化与计算机技术—计算机应用技术]
题名 一种有效缓解数据稀疏性的混合协同过滤算法
被引量:6
2
作者
郁雪
李敏强
机构
天津大学管理学院
出处
《计算机应用》
CSCD
北大核心
2009年第6期1590-1593,共4页
基金
高等学校博士学科点专项科研基金资助项目(20020056047)
文摘
目前协同过滤技术已经被成功运用到各种推荐系统中,但是随着资源种类的不断膨胀与用户日益的增加,用来评判的数据矩阵越来越稀疏,严重影响了推荐质量。为此设计了一种混合新算法,对基于项目的协同过滤算法提出两个改进方法:首先根据网站的层次结构信息改进了传统的相似度计算方法;其次增加了预测缺失兴趣值的算法,使用户的交叉兴趣点增多,有效缓解了稀疏性的问题。实验结果证明了新算法具有较高的推荐精度,能够找到用户潜在的兴趣页面。
关键词
推荐系统
协同过滤
数据 预测
数据稀疏性
Keywords
recommendation system
collaborative filtering
data prediction
data sparsity
分类号
TP311.13
[自动化与计算机技术—计算机软件与理论]
题名 一种缓解互惠推荐系统中数据稀疏性的算法
被引量:5
3
作者
殷方勇
王红
王吉华
机构
山东师范大学信息科学与工程学院
山东师范大学山东省分布式计算机软件新技术重点实验室
出处
《济南大学学报(自然科学版)》
北大核心
2017年第1期48-54,共7页
基金
国家自然科学基金项目(61472233)
文摘
为解决以在线交友为代表的互惠推荐系统中数据稀疏性问题,根据LMa Fit算法提出一种改进评分矩阵的互惠推荐算法,该算法改进了传统评分矩阵填充的单向性与融合相似度计算。结果表明,与基于项目的协同过滤推荐算法和基于内容和协同过滤的混合算法相比,改进评分矩阵的互惠推荐算法在准确率、召回率和调和平均数值方面有明显改进,该算法不仅改善了数据稀疏性的问题,而且推荐质量也明显优于其他算法。
关键词
数据稀疏性
互惠推荐
矩阵填充
融合相似度
Keywords
data sparsity
reciprocal recommendation
matrix filling
fusion similarity
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 基于GEP-RBF的协同过滤数据稀疏性问题研究
被引量:8
4
作者
古凌岚
机构
广东轻工职业技术学院计算机工程系
出处
《计算机与数字工程》
2013年第9期1433-1436,1441,共5页
文摘
针对传统协同过滤推荐算法的数据稀疏性问题,提出了基于GEP-RBF的协同过滤推荐算法。该算法对目标用户偏好的分类范畴进行了分析,构建了局部用户-项目评分矩阵,同时利用GEP优化RBF神经网络,预测局部用户-项目评分矩阵的缺失评分,平滑评分矩阵,并给出了用户评分项目交集阈值修正相似度的方法,提高用户相似度计算的准确性。实验结果表明,该算法能有效地缓解数据稀疏性问题,从而提高了协同过滤推荐系统的推荐质量。
关键词
协同过滤
基因表达式编程(GEP)
径向基函数(RBF)神经网络
数据稀疏性
推荐系统
Keywords
collaborative filtering, gene expression programming, radical basis function neural network, the data sparse, recommendersystems
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 缓解数据稀疏性问题的传统技术研究综述
被引量:2
5
作者
陈金晨
机构
宁波大学信息学院
出处
《数据通信》
2021年第2期32-35,共4页
文摘
推荐系统旨在大量的在线商品或信息中筛选出合适用户的并推荐给用户,其广泛应用于众多Web场景之中,用于处理由于用户关联信息过少的数据稀疏性问题。自20世纪90年代以来,研究者针对这个问题提出了很多方法。因此,本文对于缓解稀疏性问题的传统技术进行综述。具体的,本文首先介绍了各种聚类技术、降维技术、图论技术和模糊技术,随后,对一些推荐系统中的突出技术进行分析比较,并针对这些技术进行实验。最后,对缓解数据稀疏性问题的研究进行展望。
关键词
数据稀疏性
传统技术
聚类
图论
矩阵分解
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 个性化推荐中的数据稀疏性问题研究
6
作者
孙明远
机构
成都七中
出处
《网友世界》
2014年第7期142-143,共2页
文摘
互联网的出现和发展给用户带来大量信息数据,造成信息超载(Information Overload)现象,解决信息超载的一种有效办法是推荐系统。推荐系统现已广泛应用于多种领域,其中最典型的为电子商务领域。同时,学术界对推荐系统的研究热度也越来越高,逐步形成了一门独立的学科。本文在借鉴和分析前人研究成果的基础上,进一步阐释了个性化推荐技术的发展轨迹、现状及存在的挑战,重点研究个性化推荐中的数据稀疏性问题及相关的解决方法,为个性化推荐的进一步发展提供理论支持。
关键词
个性 化推荐
数据稀疏性 问题
协同过滤
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 一种非线性表征的概率潜在因子张量模型
7
作者
董佳英
宋燕
李明
机构
上海理工大学理学院
上海理工大学光电信息与计算机工程学院
江苏海洋大学计算机工程学院
出处
《电子科技》
2025年第3期7-15,共9页
基金
国家自然科学基金(62073223)
上海市自然科学基金(22ZR1443400)。
文摘
针对具有极度稀疏和不平衡的非负不完整数据的填补问题,文中提出了一种非线性表征的概率潜在因子张量模型。通过合理假设数据的概率分布作为先验信息,缓解了数据的稀疏性。利用非线性映射实现对数据中每一非负元素的非线性表征,提高了模型的表征能力。考虑到数据的不平衡性,对传统正则化项添加基于实例频率的权重,增加了正则化项的有效性和针对性。实验结果表明,所提模型在补全精度和时间成本方面较现有模型具有明显提升。
关键词
非线性 表征
概率潜在因子张量模型
实例频率
非线性 映射
数据稀疏性
CP分解
不平衡分布
正则项
Keywords
nonlinear representation
probabilistic factorization tensor model
frequency of known entries
nonlinear mapping
data sparsity
CP decomposition
unbalanced distribution
regular term
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于稀疏轨迹数据的出租车载客区域推荐
被引量:3
8
作者
廖祝华
张健
刘毅志
肖浩
赵肄江
刘建勋
机构
湖南科技大学计算机科学与工程学院
出处
《电子学报》
EI
CAS
CSCD
北大核心
2020年第11期2178-2185,共8页
基金
国家科学自然基金(No.61370227,No.41871320)
湖南省自然科学基金(No.2017JJ2081,No.2018JJ4052)
+1 种基金
湖南省教育厅重点项目(No.17A070)
湖南省教育厅一般项目(No.19C0755)。
文摘
基于短期出租车轨迹数据的载客区域推荐能极大减少系统开销,提高推荐效率,但常伴随着数据稀疏性的问题.针对该问题,本文提出了一种融合地理信息的隐语义模型-GeoLFM.该模型通过将出租车司机所处的客观地理环境信息,融合到司机-载客区域矩阵分解的过程中,从而弥补数据稀疏性带来的不足.同时,根据出租车实时的空间位置信息,为身处不同地点的出租车推荐不同的载客区域.实验证明,本文提出的方法与常用方法相比,推荐结果与真实的出租车司机载客情况间的平均绝对误差和均方根误差都得到大幅降低,较好的提升了推荐效果.
关键词
轨迹挖掘
载客推荐
数据稀疏性
隐语义模型
地理信息
Keywords
trajectories mining
pick-up recommendation
data sparsity
latent factor model
geographic information
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 改进的面向数据稀疏的协同过滤推荐算法
被引量:15
9
作者
高倩
何聚厚
机构
陕西师范大学计算机科学学院
陕西师范大学现代教学技术教育部重点实验室
出处
《计算机技术与发展》
2016年第3期63-66,共4页
基金
中央高校基本科研业务费专项资金资助项目(GK201002028
GK201101001)
陕西师范大学学习科学交叉学科培育计划资助项目
文摘
用户相似性和最近邻集合是协同过滤算法中最重要的两个步骤。传统的协同过滤算法依靠用户评分计算用户相似性并寻找K个邻居作为最近邻的方法为用户产生推荐,但是在数据稀疏的情况下,仅仅依靠用户评分使得推荐效果不准确。针对以上问题,文中提出一种改进的面向数据稀疏的协同过滤推荐算法。该方法引入用户属性相似性和用户兴趣度相似性,并结合传统的用户评分相似性计算用户间的相似度,通过多次实验调整三者的权重,并且采用动态选取邻居集合的方法确定用户的最近邻,从而为用户推荐最合适的项目,增强了方法实用性,以此来缓解用户数据稀疏性问题。实验结果表明,文中方法能够充分利用用户的各类数据信息,提高了预测评分的准确性及推荐质量。
关键词
用户相似性
属性
兴趣
动态
数据稀疏性
Keywords
user similarity
attribute
interest
dynamic
data sparsity
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 统计视角下面向数据稀疏问题的协同过滤推荐算法改进
被引量:1
10
作者
张娟娟
机构
重庆工商大学数学与统计学院
出处
《时代金融》
2015年第35期219-221,共3页
文摘
用户-项目评分数据的稀疏性一直是协同过滤推荐算法面临的严峻问题,在统计学视角下提出了改进数据稀疏性的方法,用均值、众数进行用户未评分项目的缺失值替换以及基于K-Means聚类的分类协同推荐,两种方法均在基于用户行为的协同过滤推荐算法上进行实践,通过计算用户间相似性找出最近邻居,根据邻居用户对目标用户未评分项目的评分进行评分预测,并产生推荐。实验证明本文提出的用均值、众数进行缺失值替换方法以及基于K-Means聚类的分类协同推荐方法的推荐结果都要优于传统的协同过滤推荐算法。
关键词
协同过滤
数据稀疏性
缺失值替换
K-MEANS聚类
分类号
TP391.3
[自动化与计算机技术—计算机应用技术]
题名 一种面向稀疏数据基于间接评分的协同过滤算法
被引量:1
11
作者
张超
颜伟
机构
曲阜师范大学网络信息中心
出处
《曲阜师范大学学报(自然科学版)》
CAS
2019年第3期60-65,共6页
文摘
针对数据稀疏性问题,从提高稀疏数据矩阵利用效率这个角度,提出了一种基于间接评分的协同过滤算法,在基于用户和基于项目的协同过滤算法基础上,将2种算法的预测评分进行动态地混合加权作为直接预测评分,同时引入“相似用户”对“相似物品”的评分作为间接预测评分,最后把间接预测和直接预测2种评分加权形成用户对项目的最终评分.为证明该方法的有效性,使用MovieLens电影评分数据集对算法进行验证,结果表明该方法的平均绝对误差要比传统的基于用户和基于项目的协同过滤算法低,表明了在稀疏数据上该文提出的基于间接评分的协同过滤算法效果更佳.
关键词
数据稀疏性
间接评分
推荐系统
协同过滤
Keywords
data scarcity
indirect rating
recommended system
collaborative filtering
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 个性化推荐中的隐语义模型
被引量:22
12
作者
王升升
赵海燕
陈庆奎
曹健
机构
上海市现代光学系统重点实验室光学仪器与系统教育部工程研究中心上海理工大学光电信息与计算机工程学院
上海交通大学计算机科学与技术系
出处
《小型微型计算机系统》
CSCD
北大核心
2016年第5期881-889,共9页
基金
国家自然科学基金项目(61272438
61202376
+3 种基金
61472253)资助
上海市科委项目(14511107702)资助
上海市教委科研创新项目(13ZZ112
13YZ075)资助
文摘
协同过滤是最流行的推荐算法之一,已经成功地应用在很多推荐系统中,而隐语义模型就是协同过滤的典型代表.隐语义模型的核心思想是通过隐类联系用户兴趣和物品,通过矩阵分解技术建立用户和隐类之间的关系,隐类和物品之间的关系,最终得到用户对物品的偏好关系,从而个性化地对用户进行物品的推荐.但是,数据稀疏性和冷启动是协同过滤面临的最大挑战,幸运的是,伴随着社交网络的异军突起,很多学者已经将社交特征数据信息(比如标签、社交等)融入隐语义模型之中来解决协同过滤面临的问题.本文综述了近些年来基于隐语义模型的推荐算法研究成果,总结了常见的基于隐语义模型的推荐算法拓扑结构,并给出了未来的研究方向.
关键词
协同过滤
隐语义模型
矩阵分解
社交网络
数据稀疏性
冷启动
Keywords
collaborating filtering
latent factor model
matrix factorization
social network
data sparsity
cold start
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于用户的协同过滤算法的推荐效率和个性化改进
被引量:37
13
作者
王成
朱志刚
张玉侠
苏芳芳
机构
华侨大学计算机科学与技术学院
西安交通大学机械强度与振动国家重点实验室
出处
《小型微型计算机系统》
CSCD
北大核心
2016年第3期428-432,共5页
基金
国家自然科学基金项目(51305142
61103170)资助
+3 种基金
厦门市科技计划项目(3502Z20143041)资助
福建省自然科学基金计划项目(2014J01191)资助
中国博士后科学基金第55批面上项目(2014M552429)资助
华侨大学引进人才科研启动项目(12BS217)资助
文摘
针对传统的基于用户的协同过滤算法存在的推荐效率、精度和个性化低的问题,提出一种改进方法.该方法在计算用户评分矩阵时,考虑到用户评分矩阵稀疏性,建立项目-用户的倒查表,只计算有相同评分项的用户之间的相似度,避免了传统方法中对所有用户计算两两用户相似度的庞大工作量.该方法在计算用户相似度时,考虑到项目的热门程度不同,"惩罚"了用户共同兴趣列表中的热门项目,避免了传统方法中赋予所有项目相同权值对推荐结果个性化的负面影响.本文在详细分析了改进的用户协同过滤算法的原理和优点,给出了其推荐步骤流程图.在Movielens100K和HetRec2011-movielens-2k公开数据集上,十折交叉验证的结果表明,改进后的算法节约了运行时间,提高了推荐算法的效率和个性化.
关键词
基于用户的协同过滤
个性 化推荐
相似度计算
用户评分矩阵
数据稀疏性
项目-用户倒查表
十折交叉验证
Keywords
user-based collaborative filtering
personalized recommendation
similarity calculation
user-rating-data matrix
data sparseness
items—users inversion table
10-fold cross-validation
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 基于用户多属性与兴趣的协同过滤算法
被引量:14
14
作者
赵文涛
王春春
成亚飞
孟令军
赵好好
机构
河南理工大学计算机科学与技术学院
出处
《计算机应用研究》
CSCD
北大核心
2016年第12期3630-3633,3653,共5页
基金
河南省科技攻关资助项目(142402210435)
河南省高等学校矿山信息化重点学科开放基金资助项目(ky2012-02)
文摘
传统的协同过滤算法广泛应用于推荐系统领域,但该算法仍存在用户冷启动和数据稀疏性问题,造成算法的推荐质量较差。对此,提出一种基于用户多属性与兴趣的协同过滤算法AICF(attributes and interests collaborative filtering)。首先通过对多种用户属性分配权重计算出用户多属性相似度。其次利用改进的Slope One算法填充用户—项目评分矩阵,然后计算基于隐性标签的用户兴趣相似度。最后基于两种相似度的组合进行推荐。实验结果表明,AICF算法不仅明显提高了推荐结果的准确性,同时也改善了用户冷启动和数据稀疏性问题。
关键词
协同过滤
冷启动
数据稀疏性
用户多属性
隐性 标签
Keywords
collaborative filtering
cold start
data sparsity
user muhi-attribute
implicit tag
分类号
TP301.6
[自动化与计算机技术—计算机系统结构]
题名 基于随机游走和多样性图排序的个性化服务推荐方法
被引量:10
15
作者
方晨
张恒巍
王娜
王晋东
机构
信息工程大学
数字工程与先进计算国家重点实验室
出处
《电子学报》
EI
CAS
CSCD
北大核心
2018年第11期2773-2780,共8页
基金
国家自然科学基金(No.61309013
No.61303074)
河南省科技攻关计划项目(No.12210231003)
文摘
针对传统服务推荐算法由于数据稀疏性而导致推荐准确性不高,以及推荐结果缺乏多样性等缺陷,提出基于随机游走和多样性图排序的个性化服务推荐方法(PRWDR).在分析直接相似关系稀疏性的基础上提出带权重的随机游走模型,通过在用户网络上进行随机游走来挖掘更多的相似关系;基于所有相似用户预测服务的Qo S值,并给出服务图模型构建方法,以过滤大量性能过低的候选服务;提出最优节点集合选取策略,利用贪婪算法得到兼具推荐准确性和功能多样性的服务推荐列表.在公开发布的数据集上进行实验,并与多个经典算法进行比较,验证了本算法的有效性.
关键词
服务推荐
数据稀疏性
多样性
随机游走模型
Keywords
service recommendation
data sparseness
diversity
random walk model
分类号
TP393
[自动化与计算机技术—计算机应用技术]
题名 一种大数据环境下的在线社交媒体位置推断方法
被引量:5
16
作者
王凯
余伟
杨莎
吴敏
胡亚慧
李石君
机构
武汉大学计算机学院
汉口学院计算机科学与技术学院
中船重工第七二二研究所
空军预警学院
出处
《软件学报》
EI
CSCD
北大核心
2015年第11期2951-2963,共13页
基金
国家自然科学基金(61272109
61502350)
+1 种基金
中央高校基本科研业务费专项资金(2042014kf0057)
湖北省自然科学基金(2014CFB289)
文摘
随着在线社交媒体的快速发展和可定位设备的大量普及,地理位置作为社交媒体大数据中一种质量极高的信息资源,开始在疾病控制、人口流动性分析和广告精准投放等方面得到广泛应用.但是,由于大量用户没有指定或者不能准确指定位置,社交媒体上的地理位置数据十分稀疏.针对此数据稀疏性问题,提出一种基于用户生成内容的位置推断方法 UGC-LI(user generate content driven location inference method),实现对社交媒体用户和生成文本位置的推断,为基于位置的个性化信息服务提供数据支撑.通过抽取用户生成文本中的本地词语,构建一个基于词汇地理分布差异和用户社交图谱的概率模型,在多层次的地理范围内推断用户位置.同时,提出一个基于位置的参数化语言模型,计算用户生成文本发出的城市.在真实数据集上进行的评估实验表明:UGC-LI方法能够在15km偏移距离准确定位64.2%的用户,对用户所在城市的推断准确率达到81.3%;同时,可正确定位32.7%的用户生成文本发出的城市,与现有方法相比有明显的提高.
关键词
位置推断
用户生成内容
数据稀疏性
在线社交媒体
社交图谱
Keywords
location inference
user generate content
data sparsity
online social media
social graph
分类号
TP311
[自动化与计算机技术—计算机软件与理论]
题名 基于兴趣传播的用户相似性计算方法研究
被引量:8
17
作者
廖大强
印鉴
邬依林
邹杜
机构
南华工商学院
中山大学信息科学与技术学院
广东第二师范学院计算机科学系
华南理工大学广东省计算机网络重点实验室
出处
《计算机应用与软件》
CSCD
2015年第10期95-100,104,共7页
基金
广东省计算机网络重点实验室开放基金项目(CCNL200709)
文摘
针对传统的协同过滤算法中存在数据稀疏性和冷启动的不足,分析目前已有的解决方案,提出基于用户兴趣传播的协同过滤算法。在改进算法中可以让用户兴趣进行直接传播,使得用户兴趣游走以及更新,计算用户-兴趣的分布矩阵从而获取用户兴趣的相似性,然后对上述过程通过算法描述其实现过程,最后对算法进行实验分析。在这个算法当中不仅解决用户的兴趣的相似性计算问题,又考虑到其他的邻居的用户对于目标用户兴趣偏好的影响,在数据稀疏性的情况下保证了算法的有效性,在一定程度上提高了性能。仿真实验表明,算法的性能具有可行性和有效性。
关键词
数据稀疏性
用户兴趣
直接传播
兴趣游走
兴趣偏好
协同过滤
Keywords
Data sparsity
User interest
Direct propagation Interest wandering
Interest preference
Collaborative filtering
分类号
TP3
[自动化与计算机技术—计算机科学与技术]
题名 一种基于稀疏分段的协同过滤推荐算法
被引量:8
18
作者
贺怀清
计瑜
惠康华
刘浩翰
机构
中国民航大学计算机科学与技术学院
出处
《现代电子技术》
北大核心
2019年第9期90-94,共5页
基金
天津市应用基础与前沿技术研究计划重点项目(14JCZDJC32500):面向天津空铁联运模式的服务推荐关键技术研究~~
文摘
针对数据强稀疏性严重制约协同过滤算法推荐准确性的问题,提出基于稀疏分段的改进方法。首先利用基于迭代预测的支持向量回归在解决小样本高维数据中的优势,对稀疏的U-I矩阵中相对弱稀疏的密集数据部分预测缺失评分,然后使用基于项目的插补协同过滤方法预测剩余数据的缺失评分。在多个公开数据集中的实验表明,该方法适用于强稀疏数据集的推荐,与基于项目协同过滤比较可取得较好的预测结果。
关键词
稀疏 分段
支持向量回归
基于项目的推荐
协同过滤
数据稀疏性
小样本
Keywords
sparseness segmentation
support vector regression
item-based recommendation
collaborative filtering
data sparsity
small sample
分类号
TN911.1-34
[电子电信—通信与信息系统]
题名 基于混合聚类的个性化推荐算法
被引量:4
19
作者
成桂兰
刘旭东
陈德人
机构
烟台职业学院信息工程系
烟台职业学院科研处
浙江大学计算机科学与技术学院
出处
《武汉理工大学学报(信息与管理工程版)》
CAS
2011年第3期379-381,434,共4页
基金
国家科技支撑计划基金资助项目(2008BAH21B03)
文摘
针对传统协同过滤算法存在的数据稀疏性问题,提出了一种基于聚类技术的推荐算法。该算法将SOM与K-means技术相结合对图书资源进行聚类,缩小了需要预测的图书资源数目和最近邻居的搜索范围,达到了为读者提供符合其偏好特征的图书资源的目的。实验结果表明,改进后的算法较好地解决了数据稀疏性问题,提高了推荐系统的推荐质量。
关键词
协同过滤
数字图书馆
SOM
K-MEANS
数据稀疏性
平均绝对偏差
Keywords
collaborative filtering
digital library
SOM
K-means
data sparsity
MAE
分类号
TP391
[自动化与计算机技术—计算机应用技术]
题名 一种改进的缺失数据协同过滤推荐算法
被引量:2
20
作者
周明升
韩冬梅
机构
上海财经大学信息管理与工程学院
上海外高桥保税区联合发展有限公司
出处
《微型机与应用》
2016年第17期17-19,共3页
基金
国家自然科学基金资助项目(41174007)
上海财经大学研究生教育创新计划项目(CXJJ-2014-440)
文摘
协同过滤推荐算法是推荐系统研究的热点,近年来,在亚马逊、淘宝等商业系统中获得应用。在实际应用过程中,协同过滤推荐面临数据稀疏和准确性低的问题。作为推荐基础的用户-产品(项目)矩阵通常非常稀疏(存在大量缺失数据),从而导致推荐结果不准确。文章试图在缺失数据情况下提高协同过滤推荐的准确性,聚焦以下两个方面:(1)用户相似度、产品(项目)相似度计算;(2)缺失数据预测。首先,用增强的皮尔森相关系数算法,通过增加参数,对相似度进行修正,提高用户、产品(项目)相似度计算的准确率。接着,提出一种同时考虑了用户和产品(项目)特征的缺失数据预测算法。算法中,对用户和产品(项目)分别设置相似度阈值,只有当用户或产品(项目)相似度达到阈值时,才进行缺失数据预测。预测过程中,同时使用用户和产品(项目)相似度信息,以提高准确度。在模型基础上,用淘宝移动客户端的数据集进行了验证,实验结果表明所提算法比其他推荐算法要优异,对数据稀疏性的鲁棒性要高。
关键词
协同过滤
推荐系统
缺失数据 预测
数据稀疏性
Keywords
collaborative filtering
recommender system
missing data prediction
data sparsity
分类号
TP391
[自动化与计算机技术—计算机应用技术]