学报
 网站首页  部门概况  编委会  投稿须知  制度文件  征订发行  下载专区  过刊(自科)  联系我们 
站内搜索:
当前位置: 网站首页 > 过刊(自科) > 2025年第2期 > 正文

面向语义多样性的无监督关键词提取方法

2025年05月02日 12:16  点击:[]



全文下载:  19.pdf


文章编号: 1672-6987202502-0140-10 DOI 10.16351/j.1672-6987.2025.02.019

崔莹莹, 陈卓*青岛科技大学 信息科学技术学院, 山东 青岛 266061

摘要: 针对现有关键词提取方法忽略词语的语义多样性从而所提取出的关键词之间具有语义相近的问题提出面向语义多样性的无监督关键词提取方法该方法首先使用融合词语位置信息和表面信息量特征的词语节点中心性分数来衡量词语在全文其他词语中的重要程度然后将词语聚类后为多个局部根据词语的主旨性分数降低每一局部范围中多个相似词语中冗余词语的权重最后考虑到存在某个局部中的所有单词都很重要的情况以整个文档为全局范围根据词语的节点中心性分数降低全局范围中非中心性词语的权重从而使得更多正确的关键词有机会被提取出来改善了关键词提取的质量3个公开数据集中的实验结果表明该方法的F1值比先进基线方法提升约5%


关键词: 关键词提取 语义相似度 无监督方法 聚类


中图分类号: TP 391        文献标志码: A


引用格式: 崔莹莹 陈卓. 面向语义多样性的无监督关键词提取方法J. 青岛科技大学学报自然科学版 2025 462 140-149.


CUI Yingying CHEN Zhuo. Unsupervised keyword extraction for semantic diversityJ. Journal of Qingdao University of Science and TechnologyNatural Science Edition 2025 462 140-149.

Unsupervised Keyword Extraction for Semantic Diversity

CUI YingyingCHEN ZhuoCollege of Information Science and TechnologyQingdao University of Science and TechnologyQingdao 266061China

Abstract Aimed at the problem that the existing keyword extraction methods ignore the semantic diversity of words and the semantic similarity between the extracted keywordsproposed an unsupervised keyword extraction method for semantic diversity. Firstused the word node centrality score that combined word position and surface information to measure the word importance in other words. Thenclustering the words to get multiple localsaccording to the word subject score to reduce the redundant words weight in each local. Finallyall words in local may be importanttaked the whole document as the global scopeaccording the word node centrality score to reduce the non-central words weightthat can extract more correct keywords and improve the keyword quality. Experiments on three public datasets show that the F1 value of this paper's method are increasing about 5% compared with advanced baseline methods.


Key words keyword extractionsemantic similarityunsupervised methodsclustering

收稿日期: 2024-10-03

基金项目: 国家自然科学基金项目6217072142;山东省自然科学基金项目ZR2021MF092.

作者简介: 崔莹莹1998—,女,硕士研究生.     * 通信联系人.


  • 附件【19.pdf】已下载

上一条:煤矿井筒微裂缝检测算法 下一条:基于移动倒置瓶颈和迁移学习的乳腺癌组织病理图像二值分类

关闭

 
  通知公告 更多>>
关于作者领取2026年第1期样刊...
关于作者领取2025年第6期样刊...
关于作者领取2025年第5期样刊...
关于作者领取2025年第4期样刊...
关于作者领取2025年第3期样刊...
关于作者领取2025年第2期样刊...
关于作者领取2025年第1期样刊...
关于征集2025年《青岛科技大...
学报编辑部举办“戴尊红副主...
  期刊入口 更多>>
学报(社会科学版)网站入口  
PolyChem网站入口  
学报(自然科学版)作者投稿系统  
学报(自然科学版)专家审稿系统  
学报(自然科学版)编辑办公系统  

©版权所有:青岛科技大学 期刊中心  地址:山东省青岛市崂山区松岭路99号图书馆楼5040 邮编:266061