2023-09-04
57
上传者:管理员
摘要:从在线健康社区用户兴趣的动态迁移性出发,将时间特征融入社交关系和个人偏好,完善在线健康社区个性化推荐算法,进一步提高用户获取健康信息的准确性。[方法/过程]首先,从用户社交关系出发,构建融入时间特征的用户影响关系网络;其次,依据用户个人偏好,构建融入时间特征的用户话题帖匹配矩阵;最后,将两者融合得到用户话题帖兴趣评分矩阵,据此形成每个用户的TOP-N推荐列表。[结果/结论]构建的融合时间特征的个性化推荐算法可提高推荐的准确度,提升在线健康社区个性化推荐算法的性能。
加入收藏
健全和完善“互联网+医疗健康”服务体系及支撑体系是当前推进实施“健康中国”战略的一项重要工作[1]。随着这项工作的推进,在线健康社区(Online Health Communities, OHCs)已成为人们获取健康信息的重要渠道。OHCs是具有相同健康或疾病治疗兴趣的人在以互联网为媒介形成的健康社区集合,是人们获取健康信息、得到情感支持、分享个人经验和健康信息以及提供情感支持等各种与健康相关的活动的平台。然而,目前OHCs平台的用户在健康信息搜寻和交互方面尚需进一步优化。随着OHCs用户数量和信息资源的不断增长,导致大数据呈现低价值密度特征,即信息过载问题。因此,用户对个性化推荐的需求越来越高,以减少信息超载带来的认知负荷。但是,用户的健康信息需求因其自身因素不同而具有个性化特点,且用户健康状况会随着时间推移而发生改变,目前在线健康社区个性化推荐算法鲜有对用户兴趣的时间动态迁移特征进行赋权。如何有效构建更为丰富的OHCs用户推荐算法,提供更为针对性的服务,以实现精准推荐,已成为目前领域学者普遍关注的问题。
1、国内外相关研究
个性化推荐是在数据挖掘基础上实现的智能信息服务,能够有效满足人们对各类信息的个性化需求[2]。早期的推荐算法研究主要集中于传统推荐算法,包括基于内容的推荐算法、基于协同过滤的推荐算法和基于混合的推荐算法。近期基于深度学习的推荐模型成为一大热点[3],但其与传统推荐算法相比,需要大量的数据作为支撑,无法解决数据稀疏性问题。而研究表明,将社交信息等辅助信息加入传统推荐算法可缓解冷启动和项目稀疏性[4],且考虑用户兴趣的动态迁移性可提升个性化推荐算法效率[5]。故为弥补传统推荐算法的不足,研究者们尝试采用多维度信息融合并加入推荐算法,最典型的是社交关系信息、时间上下文信息。如琚春华等[6]通过构建仿真的微信平台获取数据,将用户社交关系与信任关系和偏好融合到推荐方法中,提高了其有效性和准确度;董立岩等[7]意识到研究时间对用户兴趣影响的重要性,通过在传统的协同过滤算法中融入时间特征,发现基于时间衰减的协同过滤算法在准确性上得到了显著的提高。上述研究集中于电子商务、新闻、社交网络、音乐、广告等领域,但在医疗健康信息服务领域的应用程度还不足。OHCs的推荐有其显著的特殊性,只包括提供内容服务、无评分信息、冷启动和矩阵稀疏问题更严重等特性,而且现实中用户兴趣会随着健康状况在不同时期阶段的变化而发生改变。所以目前的已有个性化推荐算法在OHCs中的应用还有待深入探索。
在线健康社区个性化推荐方法的研究尚不多见。现有研究主要是通过分析用户社交关系和用户生成内容文本语义构建网络来实现话题内容的推荐,且基于用户兴趣是一成不变的观点,将用户以往产生的数据不分时间先后统一用来代表用户现在的兴趣。如Yang H等[8]通过隐含的社会关系,采用自适应矩阵分解的方法为用户进行推荐;Yang C C等[9]通过构建用户和UGC之间关系的异构医疗信息网络,向OHCs中的用户推荐话题贴;Yang H等[10]通过构建用户影响关系(User Influence Relationships, UIRs)网络计算用户相似度,提高为用户进行内容推荐的准确度;李贺等[11]通过将提取的用户评论关键词之间形成语义关系网络,以便构建模糊认知图,实现相关疾病知识的推荐;王欣研[12]通过挖掘热点问题以及问题主题相关关系,构建语义关联主题图谱并搭建了个性化推荐模型。
综上所述,个性化推荐算法已有较多研究将社交关系和时间上下文作为额外信息融入个性化推荐算法,但是并不完全适用于OHCs的用户推荐。而现有的面向在线健康社区的个性化推荐,均未考虑时间特征对用户兴趣的影响,导致用户兴趣的动态迁移性无法体现。因此,本研究基于其他领域的个性化推荐算法研究,构建融合时间特征的在线健康社区个性化推荐算法,深入探讨用户兴趣的动态迁移性对提升推荐算法的准确度和有效性,以获得更加精准的推荐结果。
2、基于社交关系和个人偏好的动态个性化推荐算法框架
OHCs与其他类型的在线社区存在的最大区别是OHCs用户在交互过程中,因每个用户的健康状况会随着时间的推移而产生变化,其健康信息需求和信息交互行为具有更显著的动态迁移性。另外,OHCs用户兴趣分为用户间互动形成的社交关系和用户日常发布信息即用户个人偏好两部分[13]。基于以上两点,本文所构建的融合时间特征的个性化推荐算法分为3部分:①社交关系与时间特征融合的动态社交关系矩阵构建;②用户个人偏好与时间融合的用户话题帖匹配矩阵构建;③基于动态社交关系和个人动态偏好的个性化推荐算法构建。
2.1融合时间特征的社交关系矩阵构建
OHCs与一般在线社区相比属于弱社交关系媒体,其社区成员间基于兴趣构建社交关系。此外,用户间的社会影响关系反映用户间通过交换健康信息产生社会影响,从而构成社交关系的互动过程。且OHCs用户间社会关系越强则代表两者间的社会影响力越大,并且两用户间相似度越大,两用户间的相互影响程度也越大[14]。且社会关联理论表明,一方面具有相似特征的两个个体间更容易建立社会关系;另一方面具有社会关系的个体更容易表现出相似特征[15]。所以,从融合时间特征的用户社会关系强度和融合时间特征的用户间相似度出发,构建OHCs融合时间特征的社交关系网络即用户影响力网络,以体现用户间基于兴趣的动态社交关系。公式如下:
Sij=WSij*USij (1)
其中,WSij表示依据两用户间的交互程度而得到的用户vi对用户vj的影响程度,USij则是用户vi和用户vj之间的相似程度。
然而,一方面,用户社会关系强度依赖于连接两用户的连通路径的权值和数量;另一方面,用户行为模式相似度依赖于用户行为轨迹。要构建OHCs融合时间特征的用户影响力网络,因其不同于存在评分、评级和关注等显式行为的其他类型在线社区,需先依据OHCs的隐式互动行为特点,构建基于用户间共同兴趣产生参与话题帖的互动行为来表示社会关系的隐式行为网络。因此,本部分包括:①融合时间特征的隐式用户行为网络构建;②融合时间特征的用户间相似度矩阵构建;③融入时间特征的用户间社会影响力计算。
2.1.1融合时间特征的隐式用户行为网络构建
OHCs是用户发布和回复话题帖进行交流的平台,其互动行为是基于兴趣产生的隐式行为,而不像其他社区存在显式行为。因此,本研究构建的行为网络基于OHCs中的隐式互动行为构建。其隐式交互行为定义为用户参与同一话题帖,认为参与同一话题帖的用户具有相似的兴趣,且相似程度与共同参与话题帖的数量成正比,且回复量比访问量更能体现话题帖的受关注程度[16]。但当一个话题帖成为热门话题帖导致大多数用户普遍参与其中时,反而该话题帖不能很好地代表用户的兴趣,因而此帖对用户共同兴趣的贡献度应相对降低。此外,OHCs中用户的健康状况会随时间改变而变化,导致用户兴趣也随之发生变化,致使用户间基于兴趣的影响力随时间推移而衰减,表现为对时刻tk的用户uk来说,同一级联中时刻tk附近的用户对uk的影响力应远大于较早时刻的用户,有研究[17,18]证明了这一点[19]。且Muniz C P M T等[20]受弱联系社会理论的启发,认为最近的互动比以前的互动具有更大的影响力。
因此,上述内容表现在隐式用户行为网络中,概括为以下3点:
1)用户间共同参与的话题帖数量越多,即交互次数越多(当两个用户在多次参与一个话题帖时,只能算为1次),表明两者间健康信息兴趣越相似,用户之间的权重越大。
2)参与一个话题帖的人数越多,表明该话题帖受欢迎程度越大,此帖对边权重的贡献越小,即每个话题帖的参与人数定义为Nu,用其倒数代表该话题帖对本用户边权重的贡献值。
3)两用户间的交互时间距离现在越近,表明两者间的健康状况相似可能性越大,用户间产生的社会影响力越大,相应的边权重值也越大,其互动时间定义为两者中后参与该话题帖的时间。
基于上述观点首先构建动态隐式行为网络,以便获取用户间的连接强度,公式如下:
wij=∑p∈threads(vi)∩threds(vj)1NUp*e−λ(t−t0)1ΝUp*e-λ(t-t0) (2)
wij表示用户vi和用户vj之间边的权重,threads(vi)和threads(vj)表示用户vi和用户vj分别参与的话题帖集合,NUp表示话题帖p的参与人数。t表示当前系统日期,t0表示用户感兴趣的关键词权值最近一次更新的日期,λ是系统预置参数,决定用户对该关键词的兴趣经过多少天衰减到初始值的一半[21]。由于本研究选取的Ⅱ型糖尿病医生建议复查时间为3个月,而用户的兴趣变化周期也很有可能符合该周期,所以将时间衰减函数中的时间周期设置为3个月。
然而,在线健康社区中每个用户的活跃程度不同,越活跃的用户,参与的话题帖数量越多,这就导致用户差异问题的出现。为了解决上述问题,本研究把用户参与的话题帖数量用来代表用户的活跃程度,参与话题帖数量多的用户,兴趣分布更为广泛,导致单一话题帖在该用户参与的所有话题帖中所占的比重较小。因此,为了区分每个用户的活跃程度差异,需要从每个用户的角度出发,构建有方向的用户行为网络。步骤包括:
首先,将每个用户参与的话题帖数量作为节点权重。
其次,将用户的活跃程度加入边权重,即在原有边权重的基础上除以起点用户的节点权重。
最后,将边权重进行最大值归一化。
2.1.2融合时间特征的用户间相似度矩阵构建
因OHCs是用户根据自己的兴趣参与话题帖讨论产生互动行为的平台,所以其用户倾向于与具有相似特征或相似健康状况的用户产生交流,其相似度越大,健康状况越相似,彼此间的社会影响力越大。而OHCs的用户间相似度通常采用用户信息的相似度来衡量。且OHCs中的用户信息分为静态信息和动态信息,其中静态信息主要是指用户属性信息,动态信息包括用户生成内容和用户行为轨迹[22]。故本研究融合时间特征的用户相似度,从用户的属性、用户生成内容和用户行为模式相似度展开,其中融合时间特征体现在动态信息上。用户相似度的计算公式如下:
USij=α1*SRij+α2*CSij+α3*PSij (3)
SRij表示用户vi和用户vj行为模式相似度,CSij表示用户vi和用户vj生成内容的相似度,PSij表示用户vi和用户vj用户属性的相似度,α1、α2、α3是各部分的权重系数,其值取决于各部分的重要程度,用XGBoost(Extreme Gradient Boosting,极端梯度提升)特征重要性选择算法来计算。
1)融合时间特征的用户行为模式相似度
已有研究[10]主要利用传统SimRank算法和改进的考虑节点间权重的SimRank算法计算行为相似度,改进的公式如下:
S(u,v)=c|I(u)||I(v)|S(u,v)=c|Ι(u)||Ι(v)|∑i|I(u)|∑i|Ι(u)|∑j|I(v)|∑j|Ι(v)|S(Ii(u),Ij(v))×w″(Ii(u),u)×w″(Ij(v),v) (4)
但上述改进的公式仍存在问题:当两个节点间公共邻居越多,计算相似度反而更低。而SimRank++算法通过新增一个补偿项,当两用户共同参与的话题帖更多时,两者间的相似度更大,得到的补偿更多;同时该算法还考虑了节点间的权重,权重值来源于前面构建的融合时间特征的隐式用户行为网络。结合本研究,公式如下:
evidence(u,v)=∑i=1|I(u)∩I(v)|∑i=1|Ι(u)∩Ι(v)|12i12i (5)
S(u,v)=C*evidence(u,v)*∑i|I(u)|∑i|Ι(u)|∑j|I(v)|∑j|Ι(v)|S(Ii(u),Ij(v))*w(Ii(u),u)*w(Ij(v),v) (6)
因为u和v两用户健康状况的相似性小于u和它自身之间的相似性,所以设置了衰减系数C,以便在相似性传递的过程中做衰减,其值在(0,1)之间,但一般设置为0.8。I(u)代表与节点u相连的节点集合,I(v)代表与节点v相连的节点集合,S(Ii(u),Ij(u))表示节点u相连的节点i与节点v相连的节点j之间的相似度,w(Ii(u),u)代表节点u与节点i之间的边权重,w(Ij(v),v)代表节点v与节点j之间的边权重值,evidence(u,v)代表当两节点间公共邻居增多时,其值越大。用SRij代表vi和vj的行为模式相似度,其值越大,两个节点的行为相似度越大。
2)融合时间特征的用户内容相似度
OHCs中提供、接受社会支持以及改善用户认知的最有价值载体是众多的用户生成内容(User Generated Content, UGC)[23]。所以即使OHCs用户间没有直接关系,但两个用户的UGC相同,两者极大可能处于相似的健康状况,并加入同一个社区或者话题帖中[24]。所以,OHCs中UGC也是用户相似度中的重要组成部分,且其中的文本内容更能体现用户的健康信息需求。本研究选用了LDA(Latent Dirichlet Allocation,潜在狄利克雷分布)主题模型和TF-IDF关键词提取算法分别提取主题和关键词,并将用户间的主题相似度和关键词相似度线性加权,得到任意两个用户生成内容的相似度公式为:
CSij=θ1*LSij+θ2*KSij (7)
其中,θ1、θ2是系统设定的参数,用来调整主题相似度和关键词相似度的比例系数,这两个参数后续通过XGBoost模型计算特征重要性的准确率确定。
然而,随着时间的推移,OHCs用户病情和知识结构的改变致使早期兴趣不断衰减,从而使用户发布的文本信息在描绘用户兴趣的精确性中不断衰减。所以在对用户间文本内容相似度计算时需要融合时间衰减函数。LDA主题模型应用于OHCs推荐领域具有一定的应用优势和不错的应用效果,但LDA主题模型只能通过将数据按照时间分段,提取一段时间内的主题词,而OHCs用户分别具有不同的发布时间规律,而且还会受突发事件的影响,导致很难确定合适的时间段大小。为了体现用户兴趣的动态迁移性,将用TF-IDF技术提取的表示用户兴趣关注程度的关键词与时间衰减函数结合[25]。具体步骤如下:
首先,对用户生成的文本内容利用主题模型进行主题特征向量表示,LDA主题模型[26]是目前应用范围最广、普适性较好的,它是一个具有3层结构的贝叶斯概率模型,可以将文档集中每篇文档的主题以概率分布的形式表现,p(z|d)表示一篇文档d中的主题z的分布概率,p(w|z)表示每个主题z中词w的分布概率,将两者结合可得到单词w在文档d中的分布概率为:
P(w|d)=∑Ki=1p(w|zi)p(zi|d) (8)
其中K表示主题个数,当主题个数改变时,整个模型也会发生改变,主题特征向量表示为:Ts={ws1,ws2,…,wsk},wsi(1≤i≤k)表示新闻在第i个主题的权值,a表示主题个数,最后使用归一化余弦相似度衡量文本主题内容的相似度LSij。
其次,使用向量空间模型(Vector Space Model, VSM)中的TF-IDF方法提取文本中的关键词。TF-IDF根据词的出现次数评估一个词对于一个文件集或者一个语料库中某一份文本的重要程度,词的重要性与其在文本中出现的次数成正比,与在语料库中出现的频率成反比,关键词权值序列表示为Ks={(ks1,ws1),(ks2,ws2),…,(ksx,wsk)},ksj(1≤j≤x)表示文本中的第j个关键词,WSij是用TF-IDF计算出来的关键词权值,x表示关键词的个数。
为了提取出用户最感兴趣的关键词,融入时间衰减函数,计算该关键词的权值,可分为以下几个步骤[25]:
①按权重排序选取n个关键词,将其权值作为中心向量,目标用户的每一条内容变为n维向量,称作扩展向量,若两者出自同一文档文本,则表示为(0,0,0,…,wsx),若存在m个,则扩展向量对应维度的值为wsx/m。
②设置阈值。将上面的两个向量利用余弦相似度公式计算两者间的相似度,如果相似度大于设定的阈值则加入用户关键词序列,否则舍弃。
③若新加入的关键词在Ku中已经存在,则进行关键词权值的叠加,否则,直接加入新关键词及其对应的权值,即原来权值与时间衰减因子相乘后的值。使用归一化余弦相似度衡量用户生成内容关键词序列相似度KSij。
3)用户属性相似度
社会网络理论中的个体属性在社会关系的形成中起着非常重要的作用[27],并且疾病与个体属性相关,所以OHCs中的个体属性也是计算用户健康状况相似度的重要组成部分。而本文在用户属性相似度的计算方法上依旧沿用Yang H等[10]的研究,面对用户属性值的不同类型:文本型数据若相同,赋值为1,否则为0;数值型数据采用最大最小值标准化公式进行求值。最后利用用户所有属性相似度的平均值代表用户属性相似度。
4)利用XGBoost确定权重系数
使用XGBoost模型得到用户相似度中3个特征的重要性。XGBoost模型中特征重要性是通过对数据集包含的每个特征进行计算并排序得出,通常而言,一个特征越多的被用来在模型中构建决策树,它的重要性得分越高。
2.1.3融入时间特征的用户间社会影响力计算
在OHCs中,用户根据其发帖和回帖产生的隐式交互活动进行连接,产生社会影响,且交互越频繁越容易产生较大的社会影响。而用户间的社会关系强度反映了两者间的社会影响力,且依赖于连接他们的连通路径的权值和数量,且随着用户之间距离的增加而降低[28]。所以为了获得两用户间最强的社会关系,需要求两点间的最短路径。
Dijkstra最短路径算法是有向加权图中最基本和应用最广泛的最短路径算法。在有向图中Dijkstra最短路径算法可以表示为:在构建好的有向带权图G中,给定源点A,求其到图G中其他顶点的最短路径,具体贪心算法的策略是遍历距起始点最近且未访问过的顶点的邻接节点,直到遍历到结束点。所以,本文选用Dijkstra最短路径算法并基于上文构建的融合时间特征的有向隐式用户行为网络找出两用户间的最短路径,若存在多条最短路径,取其中路径权值和最大的路径作为最短路径。
两用户间社会影响力取决于用户间路径的边权重和经过的边数量,故根据求得两用户间的最短路径,其包含的所有节点,依次将两节点的权值相乘,权值乘积越大,代表用户间基于兴趣的社会影响力越强。
2.2融入时间特征的用户话题帖匹配矩阵构建
OHCs中最主要、最有价值的内容是反映用户健康状况和健康信息需求的话题帖。且OHCs内的用户兴趣不仅受社交关系的影响,还受其自身内容偏好的影响[10]。故在获得用户间基于兴趣的社交关系而产生的社会影响后,还需根据用户的自身偏好来判断推荐给用户的话题帖是否满足用户的健康信息需求,具体可分为用户自身内容偏好的特征提取、话题帖内容特征提取以及两者之间的匹配程度3部分。
1)用户自身内容偏好。
其提取方法同上文中对用户内容相似度中内容特征的提取方法,即采用LDA主题模型和融合时间的关键词提取技术分别提取反映用户健康信息需求的主题偏好和关键词偏好。在数据利用方面,利用OHCs中用户产生最多也是最重要组成部分的文本数据来分析用户自身偏好:一方面,各大社交网站一般通过用户生成的文本信息来挖掘用户的自身偏好[29];另一方面,OHCs成为公众获取健康信息的重要渠道,其用户基于发帖和回帖产生了大量用户交互数据,其中价值最大的是用户沟通交流时所产生的文本数据。
2)话题帖文本内容的特征提取。
其具体步骤为:先利用LDA主题模型提取此话题帖在健康信息各个主题下的分布概率,即该话题帖的主题特征向量;再利用关键词提取技术得到该话题帖中与疾病有关且反映用户健康需求的关键词向量,但此处的关键词提取技术不同于前文中的关键词提取技术,这里未融合时间,原因为此处对话题帖的关键词提取只是对话题帖本身内容特征的表示,并非从用户层面表示其健康信息兴趣演变。
为了检验用户内容偏好与话题帖的符合程度,需要将上述得到的表示融合时间的用户内容偏好向量和话题帖向量,利用余弦相似度计算两者间相似度大小,值越大表明两者越相似,用户参与该话题帖的可能性越大,也就是该话题帖越能满足用户的健康需求。根据匹配度得分形成用户话题帖匹配矩阵,公式为:
Mij=θ1*(TsiTsj2|Tsi||Tsj|+12)+θ2*(KiKj2|Ki||Kj|+12)Μij=θ1*(ΤsiΤsj2|Τsi||Τsj|+12)+θ2*(ΚiΚj2|Κi||Κj|+12) (9)
2.3基于动态社交关系和个人动态偏好的个性化推荐算法构建
本研究基于动态社交关系和个人动态偏好的个性化推荐算法构建是在Yang H等[10]的研究基础上,考虑到时间对用户兴趣和推荐结果的影响,分别在用户社交关系和用户个人偏好中融入时间衰减函数。
2.3.1算法组成矩阵简介
本文构建的个性化推荐算法具体可划分为4个矩阵:
1)用户参与话题帖矩阵P=(Pij)n×m,此矩阵的行索引是用户id,列索引为话题帖,当用户参与话题帖时,该位置的值为1,否则为0。
2)用户影响关系矩阵U=(Uij)n×n,此矩阵表示融合时间特征的基于用户间兴趣而形成的社交关系,表示用户间的相互影响程度。
3)用户话题帖匹配矩阵M=(Mij)n×m,此矩阵表示融合时间特征的用户个人偏好与话题帖之间的匹配度。
4)用户未参与话题帖矩阵F=(Fij)n×m,此矩阵的行索引是用户id,列索引为话题帖,为了满足个性化推荐算法的目的,即给用户推荐未参与过的话题帖,在此矩阵中设置当用户参与话题帖时,该位置的值为0,否则为1。
2.3.2融合时间衰减函数的用户社会影响关系评分矩阵
从OHCs用户社交关系出发,存在社交关系并产生互动行为的两用户相互影响,且影响强度取决于用户影响关系网络中两节点间的社会关系的强度和相似度的大小,即用户影响关系矩阵中两用户对应位置的值。OHCs用户通过话题帖进行交流,接受和为他人提供社会支持,导致用户的决策行为会受到其他人的影响。为了综合其他用户对目标用户的社会影响,将用户参与话题帖矩阵(Pij)n×m转置后和基于社交关系的融合时间特征的用户影响关系矩阵叉乘,得到代表基于社交关系的用户话题帖初始兴趣矩阵(R′ij)n×m。用户vi到话题帖pj之间的初始兴趣如下:
R′ij=∑k=1n∑k=1nPkj*Uki (10)
2.3.3融合动态社交关系和个人动态偏好的用户话题帖评分矩阵
以往社会学和心理学的研究表明,用户的活动不仅受到社交关系的影响,还受到个人偏好的影响[30]。OHCs中,用户通过话题帖进行互动是基础,而反映用户个人偏好的UGC是主要组成。所以本研究还考虑了融合时间特征的用户个人偏好,将融合时间特征的表示用户个人偏好的用户话题帖匹配矩阵M=(Mij)n×m与融合时间特征的基于用户社交关系的用户话题帖初始兴趣矩阵(R′ij)n×m中对应位置的元素相乘,公式如下:
R″=R′*M (11)
个性化推荐算法的目的是给用户推荐未参与过的话题帖。所以需删除用户已经参与的话题帖,为了达到此目的,本部分构建了用户未参与话题帖矩阵F=(Fij)n×m,其中Fij=1表示用户vi未参与过话题帖pj。
最后,将R′与F对应位置相乘,得到最后的用户话题帖兴趣评分矩阵。针对目标用户,对其按分值大小排序,形成TOP-N推荐列表。
3、实证研究
3.1数据来源
本研究以糖尿病为例。《Ⅱ型糖尿病防治指南》指出,通过生活方式的干预,可以减少糖尿病各种并发症,有效提高糖尿病患者的生存质量[31]。其生活方式的干预需要根据病情和生活习惯等综合因素制定个性化方案;甜蜜家园是一个创办于2005年的国内最知名、规模较大、管理制度比较完善、用户的活跃程度较高的糖尿病社区[32]。综上,本文选择甜蜜家园中的“Ⅱ型糖尿病”社区版块,并使用“后裔采集器”采集2019年5月30日—2022年7月25日的发帖数据:①参与话题帖用户的个人属性包括性别、回帖数、主题数、糖尿病类型、治疗方案、生日、签到等级、用户组、注册时间和在线时间;②用户发布的文本内容及其发布时间;③用户ID。
本研究共采集了3 699条主题帖,包含2 424个用户,48 725条话题帖信息。根据本研究中构建算法的需要将其分为两个大小不同的数据集,其中小数据集包含13 955条数据,应用于XGBoost特征重要性算法确定用户间相似度3个组成指标的权重系数以及内容相似度中两个模型向量的权重系数;大数据集包含34 770条数据,用来评价确定权重系数的个性化推荐算法和基准模型中的推荐算法。
3.2数据预处理
为保证数据的有效可用,删除发表的表情符号或“谢谢分享”“顶”“赞”等评论、空评论,以及参与话题帖小于3和用户信息缺失严重的数据。数据集中序数值属性的空值利用其均值填充。
目前研究用户在线生成内容得到认可最多且被广泛使用的停用词表有中文停用词表、百度停用词表、哈工大停用词表以及四川大学机器智能实验室停用词库,本研究为了构建相对完整的停用词表,在这4个停用词表的基础上,先将其整合,再去除重复内容。使用Jieba分词对评论文本进行分词。
本研究认为随机划分训练集和测试集会导致数据泄露的前瞻偏差问题,致使存在把用户最近的评论用于训练,而把早期的评论用于测试的可能性,丧失公平性,且随机划分数据集训练出来的模型的性能也无法推广到现实世界的性能。因此,本文利用时间戳列,分别对每个用户按照时间顺序进行排序,再按照8∶2的比例划分训练集和测试集,数据集中时间距离现在最近的20%归为测试集,远离现在时间的80%为训练集。
3.3评价指标
在模型的评价指标上,本研究选用个性化推荐算法领域中最常用的评价指标,包括精确率(Precision,P)、召回率(Recall,R)和F1评分(F1-Score,F1)。F1-Score评估算法的整体性能,具体含义Precision和Recall的调和平均值。具体计算方法见式(12)~(14):
P=Hitsr (12)R=HitsHits+Miss (13)F1=2PRP+R (14)Ρ=Ηitsr (12)R=ΗitsΗits+Μiss (13)F1=2ΡRΡ+R (14)
其中,Hits是目标用户参与推荐的帖子数,r是推荐的话题帖数量,Miss表示目标用户参与但未正确推荐的话题帖数量。
3.4实验结果
1)在利用LDA主题模型对文本内容进行主题分析时,通过计算不同主题数K所对应的主题一致性Coherence,确定LDA主题模型最优的主题数。主题一致性Coherence越高表示可解释性和语义连贯性越好,则对应的K值可以作为LDA模型最优主题数,两个数据集分别对应K=3和K=2,结果如图1和图2所示。
2)利用XGBoost特征权重计算中的准确率获得LDA主题模型θ1和TF-IDF关键词提取θ2最佳系数,实验中,令θ1+θ2=1,θ1值从0.1增大到0.9,每次以0.1为单位递增,从而确定一个最优的θ1值,图3中给出了θ1的取值对准确率的影响,可以看出随着θ2的增大,准确率先减小后增大,当θ1=0.1,θ2=0.9时,准确率最高3)利用XGBoost确定用户相似度3个特征权重系数,用户内容相似度权重为0.31,用户行为相似度权重为0.34,用户属性相似度权重为0.35。结果如图4所示。4)为了验证本文构建的融合动态社交关系和个人动态偏好的个性化推荐算法(TOHCRec),选取时间上下相关的项目协同过滤推荐算法(TItemCF)、时间上下相关的用户协同过滤推荐算法(TUserCF)、时间上下相关的内容推荐算法(TCB)、基于用户社交关系和个人偏好兴趣建模的推荐算法(OHCRec)。
推荐列表长度r从50~500,步长为50。Precision随推荐列表的增长而降低,本文提出的TO-HCRec方法在Precision上明显优于所有基准方法;Recall随着推荐列表长度r的增加而上升,本文提出的TOHCRec方法在召回率上明显优于所有基准方法。TOHCRec和OHCRec的F1-Score随着推荐列表长度r的增加先下降后趋于稳定,其他基准模型趋于稳定。
总体来看,本文构建的TOHCRec优于OHCRec,原因为TOHCRec在计算用户间社会关系和个人偏好时基于用户兴趣的动态迁移性,考虑了时间特征,能更加及时地感知到用户兴趣的变化。TOHCRec优于TCBRec是因为TCBRec中只考虑了用户的个人偏好,在很大程度上无法准确地捕捉到用户的兴趣。TUserCF和TItemCF是根据用户的历史记录对用户兴趣建模,分别根据用户和话题帖的相似性生成推荐结果。其中TItemCF更加个性化,是将用户参与过的话题帖进行相似度计算,根据话题帖相似度为用户推荐可能感兴趣的内容;TUserCF与TItemCF相比更加偏向社会化,其考虑了两用户间的相互影响,具体为先找到与目标用户兴趣相似的用户群,并按照相似度大小对相似用户排序,再将相似用户感兴趣的话题帖推荐给目标用户。但由于OHCs中用户的社交关系属于基于兴趣的弱关系,导致TItemCF的效果优于TUserCF;而TOHCRec优于TItemCF、TUserCF,则是融合社交关系和个人偏好的个性化推荐算法能更准确地描绘用户的兴趣。以上所有实验结果表明,融合动态社交关系和个人动态偏好的个性化推荐算法,可显著提高推荐算法的性能。
4、结 语
本研究构建的融合时间特征的在线健康社区个性化推荐算法在一定程度上解决了用户兴趣存在动态迁移性的问题,并提高了在线健康社区个性化推荐算法的准确度,为用户兴趣存在动态迁移性和缓解冷启动、矩阵稀疏问题提供了解决思路,进一步完善了在线健康社区的个性化推荐算法研究,为后续在线健康社区的个性化推荐研究提供了参考。但本研究还存在一定的局限性:由于论坛和伦理道德的限制,导致本研究中用户的个体属性不够充足,数据来源有限,后续可获取多个数据平台的数据,进行跨平台数据的研究。
参考文献:
[1]中华人民共和国中央人民政府.国务院办公厅关于促进“互联网+医疗健康”发展的意见[R/OL]
[2]邵必林,杨.知识图谱视角下我国图书馆个性化推荐研究趋势分析[J].图书馆工作与研究,2021,1(2):88-98.
[3]王晨阳,任一,马为之,等.ReChorus:综合高效易扩展的轻量级推荐算法框架[J].软件学报,2022,33(4):1430-1438.
[5]徐立祥.基于用户偏好动态变化的个性化推荐方法研究[D].长春:吉林大学,2021.
[6]琚春华,顾秋阳,李坚.融入用户社交关系与信任关系的应用推荐方法研究[J].系统科学与数学,2021,41(1):144-161.
[7]董立岩,王越群,贺嘉楠,等.基于时间衰减的协同过滤推荐算法[J].吉林大学学报(工学版),2017,47(4):1268-1272.
[11]李贺,刘嘉宇,沈旺,等.基于模糊认知图的在线健康社区知识推荐研究[J].数据分析与知识发现,2020,4(12):55-67.
[12]王欣研.虚拟健康社区用户生成内容主题发现及个性化推荐研究[D].长春:吉林大学,2021.
[13]苏畅,武鹏飞,谢显中,等.基于用户兴趣和地理因素的兴趣点推荐方法[J].计算机科学,2019,46(4):228-234.
[14]颜志军,杨杭州,高慧颖,等.一种融合用户影响关系的在线社区好友推荐方法及系统:CN111143704A[P].2020.
[15] 焦媛媛,高雪,付轼辉.同侪影响视角下创新社区中用户群体创新行为的形成机理研究[J].南开管理评论,2022,25(1):165-178.
[16]程锦彬,钱钢.基于用户活跃程度的网络话题热度计算[J].江苏科技信息,2013,(2):25-29.
[19]梁少斌,陈志豪,魏晶晶,等.基于级联时空特征的信息传播预测方法[J].模式识别与人工智能,2021,34(11):969-978.
[22]梁思怡,彭星亮,秦斌,等.时间上下文优化的协同过滤图书推荐[J].图书馆论坛,2021,41(3):113-121.
[23]黄月盈.基于超图划分的华为社区界面标签设计[D].广州:暨南大学,2018.
[24]刘艳军.面向微博用户的社交网络社区发现研究[D].赣州:江西理工大学,2016.
[25]魏嫚.基于社交网络内容分析的用户兴趣挖掘研究[D].哈尔滨:哈尔滨工程大学,2017.
[27]罗姝雯.在线健康社区用户的社交网络分析及对其健康的影响研究[D].北京:北京化工大学,2021.
[28]夏立新,李重阳,王忠义.融合关系强度和兴趣的好友推荐方法研究[J].图书情报工作,2017,61(1):64-71.
[29]彭彪.基于微博的局部社交网络构建及热点人物提取方法研究[D].成都:西华大学,2016.
[31]方枋,王洪兴,顾娴.社区Ⅱ型糖尿病患者生活方式改变对血糖的影响[J].中国城乡企业卫生,2021,36(1):83-85.
[32]许云红,李仕林,许云丽.在线健康社区不同级别用户的参与行为研究:基于增长模型视角[J].情报杂志,2020,39(8):137-144.
文章来源:曹锦丹,钟玉骏,邹男男等.面向在线健康社区的融合时间特征个性化推荐算法研究[J].现代情报,2023,43(09):26-35.
分享:
随着全球人口老龄化的加剧,老年人的健康和生活质量成为社会关注的焦点,而在中医医养结合模式下,如何有效管理老年患者的健康,提高其生活质量,成为了一个重要的研究课题。中医医养结合模式是将中医理念与现代医疗技术相结合,注重“治未病”和“综合调养”的医疗模式。这种模式不仅关注疾病的治疗,更强调对患者整体健康和生活质量的提升。
2025-08-21患者主要表现为口渴、排尿增多、进食增多、消瘦等症状,如未及时规范管控血糖水平,长此以往可并发多种并发症,危害患者的生命安全[2]。在治疗期间,部分患者健康知识掌握较少,易出现恐惧、焦虑情绪,抵触用药治疗,而且在血糖稳定后未按时、按量用药,血糖波动较大,病情管控不佳[3]。
2025-08-05糖尿病(diabetesmellitus,DM)是中国社区管理老年人群中常见慢性病之一,其引发的机体代谢异常是诱发其他疾病的危险因素,因此DM共病情况一直以来是基层卫生预防工作重点关注的问题。心血管疾病(cardiovasculardisease,CVD)是糖尿病共病中最常见的一类疾病,因DM引起的血脂、血糖等代谢紊乱易造成心血管系统靶器官的损害,因此导致各类CVD。
2025-07-10老年三高疾病是临床常见疾病,指高血压、高血糖、高血脂,疾病可单独存在,也可相互关联,糖尿病容易患高血脂与高血压,而高血脂为动脉粥样硬化发生的主要因素,三者关系密切,威胁患者健康,引起临床重视。三高症多见于老年患者,老年人群机体功能均明显下降,而三高症病程长,疾病复杂,难以治愈。
2025-07-02近年来,我国糖尿病患病率持续增长,《中国慢性病及危险因素监测报告(2018)》显示,我国成人糖尿病患病率为11.9%。目前,我国糖尿病患病人数位列世界第一,预计到2045年将达1.7亿。糖尿病给居民和社会带来沉重的疾病负担,已成为重要的公共卫生问题。糖尿病患者血脂异常发生率往往高于非糖尿病患者。
2025-06-23吸烟是全球公认的健康风险因素,研究表明香烟烟雾(cigarettesmoke,CS)是一种高度复杂的混合物,含有4000多种化合物,会产生异常的细胞反应,导致气道和肺泡周围的组织损伤,引发多种呼吸系统疾病。目前,我国有3.03亿吸烟者,每年有超过100万人因烟草引发疾病而失去生命。
2025-06-14现阶段,高血压无根治方法,作为慢性疾病的高血压会伴随患者终身,需要长期使用药物来控制血压水平。有研究表明,由于病程长,高血压的治疗效果会受多种因素的影响,患者用药、生活及饮食依从性下降极易造成血压波动,甚至提高并发症的发生概率。为了缓解专科医院的压力,提升患者就诊便利性,社区在慢性疾病预防及治疗中发挥了积极作用。
2025-06-04高血压如果不及时治疗很容易造成心衰、肾脏病变等并发症,严重威胁着患者的身体健康和生活质量[2]。因此在治疗的同时给予老年高血压患者科学有效的护理干预十分重要。常规的护理虽然能在一定程度上改善患者的临床症状,但对于改善患者情绪状态等其他效果不够理想。
2025-06-03痴呆症是神经功能活动障碍呈进展性的疾病,表现为病人在意识清楚的状态下,也会表现出思维迟缓、情绪波动、记忆力减退以及视空间辨识能力下降等症状[1]。由于目前对于痴呆症的社区医疗服务体系尚不健全,家庭照护者需承担病人的日常照护责任[2],由此可见,家庭照护者在长期照料体系中扮演着非常重要的角色。
2025-05-29人口老龄化导致老年人慢性病增多,这些疾病不仅会影响患者的生活质量,还会增加重医疗负担。当前,家庭医生签约服务在中国推广,可为慢性病患者提供定期随访、健康教育、用药管理和紧急应对等连续综合医疗服务。相比常规健康管理方式,家庭医生签约服务提升了慢性病患者的依从性,并在病情控制及提升患者疾病知识方面更为有效。
2025-04-23人气:4406
人气:2599
人气:1993
人气:1472
人气:997
我要评论
期刊名称:现代情报
期刊人气:3714
主管单位:吉林省科学技术厅
主办单位:中国科技情报学会,吉林省科技信息研究所
出版地方:吉林
专业分类:图书
国际刊号:1008-0821
国内刊号:22-1182/G3
邮发代号:12-124
创刊时间:1980年
发行周期:月刊
期刊开本:大16开
见刊时间:1年以上
影响因子:1.973
影响因子:0.664
影响因子:0.707
影响因子:0.716
影响因子:1.057
您的论文已提交,我们会尽快联系您,请耐心等待!
你的密码已发送到您的邮箱,请查看!