基于事实抽取的Web文档内容数据质量评估被引量：5

Ranking Data Quality of Web Article Content by Extracting Facts

下载PDF

导出

摘要 Web文档内容数据质量评估决定获取数据的有用性。基于词法或用户交互进行质量评估的方法缺乏通用性,也不能获取内容的事实内涵。因此提出基于事实的质量评估方法(Fact-based Quality Assessment,FQA)。首先在Web上构建目标文档上下文,并抽取Web文档内容的事实;然后分别采用投票和图迭代策略,构建准确性和完整性维度的参照;最后,比对目标文档和维度参照的事实,量化准确性和完整性。该方法不依赖特定特征,基于事实内涵量化数据质量维度,可取得高的评估精度。实验结果证明了FQA方法的优越性。 Data quality assessment of Web article content helps identify useful data.Exiting approaches not only heavily rely on lexicon features or user interactions to obtain quality indicators,but also can not capture the content’semantics.A fact-based quality assessment（FQA）approach was proposed in this article.Given one target article,the approach starts with the identification of alternative context by collecting relevant articles and extracting facts from every article.Then,the accuracy baseline is constructed by voting,and the completeness baseline is constructed by iterations over fact graphs.Finally,data quality dimensions,including accuracy and completeness are calculated by comparing the facts of the target article with the established dimension baselines.Based on the facts of target article content,rather than particular features,FQA approach can quantify data quality dimensions with high precisions.The superior performance of FQA was verified in the experiments.

作者韩京宇陈可佳

机构地区南京邮电大学计算机学院

出处《计算机科学》 CSCD 北大核心 2014年第11期247-251,255,共6页 Computer Science

基金国家自然科学基金项目(61003040 61100135) 中央高校基本科研业务费专项资金项目(LGZD201324)资助

关键词数据质量 WEB文档准确性完整性质量维度事实 Data quality Web article Accuracy Completeness Quality dimensions Fact

分类号 TP311.13 [自动化与计算机技术—计算机软件与理论]

引文网络
相关文献

参考文献24

1Aebi D, Perrochon L. Towards improving data quality[C]// Proc. of the international conference on information systems and management Of data. New York, ACM, 1993 : 273-281.
2马茜,谷峪,张天成,于戈.一种基于数据质量的异构多源多模态感知数据获取方法[J].计算机学报,2013,36(10):2120-2131. 被引量：21
3郭志懋,周傲英.数据质量和数据清洗研究综述[J].软件学报,2002,13(11):2076-2082. 被引量：270
4Pernici B,Scannapieco M. Data Quality in Web Information Sys- tems[C]//Proc, of the 21st International Conference on Concep- tual Modeling. Berlin Heidelberg: Springer, 2002 : 397-413.
5Dalip D H, Cristo M, Calado P. Automatic assessment of docu- ment quality in web collaborative digital libraries [J]. ACM Journal of Data and Information Quality, 2011,2 (3) : 14.
6Hu Mei-qun, Lim Ee-peng, Sun Ai-xirL Measuring Article Quali- ty in Wikipedia: Models and Evaluation[C]//Proc. of the 16th CIKM. New York: ACM, 2007.,243- 252.
7Zeng H, Alhossaini M A, Li D, et al. Computing trust from revi- sion history[C]//Proc, of the 2006 International Conference on Privacy, Security and Trust:Bridge the Gap Between PST Tech- nologies and Business Services. New York: ACM, 2006.
8Blumenstock J E. Size Matters: Word Count as a Measure of Quality on Wikipedia[C]//Proc. of the 17th International Con- ference on World Wide Web. New York:ACM,2008:1095-1096.
9Knap T, Mlynkova I. Quality Assessment Social Networks: A Novel Approach for Assessing the Quality of Information on the Web[C]ffProc. of QDB of VLDB' 10. 2010.
10Baeza-Yates R, Rello L. On Measuring the Lexical Quality of the Web[C]// Proe. of the 2nd Joint WICOW/AIRWeb Workshop on Web Quality. New York: ACM, 2012 : 1-6.

二级参考文献59

1顾阳.论元结构理论介绍[J].当代语言学,1994(1):1-11. 被引量：115
2姜吉发.一种事件信息抽取模式获取方法[J].计算机工程,2005,31(15):96-98. 被引量：27
3袁毓林.用动词的论元结构跟事件模板相匹配——一种由动词驱动的信息抽取方法[J].中文信息学报,2005,19(5):37-43. 被引量：22
4梁晗,陈群秀,吴平博.基于事件框架的信息抽取系统[J].中文信息学报,2006,20(2):40-46. 被引量：38
5Yangarber R, Grishman R, Tapanainen P, et al. Automatic Acquisition of Domain Knowledge for Information Extraction[C]// Proceedings of the 18^th International Conference on Computational Linguistics (COLING 2000). Saarbriicken, Germany, 2000:412-416.
6Kim J, Moldovan D. Acquisition of Linguistic Patterns for Knowledge-based Information Extraction[J]. IEEE Transactions on Knowledge and Data Engineering, 1995,7(5) :713-724.
7Aebi, D., Perrochon, L. Towards improving data quality. In: Sarda, N.L., ed. Proceedings of the International Conference on Information Systems and Management of Data. Delhi, 1993. 273～281.
8Wang, R.Y., Kon, H.B., Madnick, S.E. Data quality requirements analysis and modeling. In: Proceedings of the 9th International Conference on Data Engineering. Vienna: IEEE Computer Society, 1993. 670～677.
9Rahm, E., Do, H.H. Data cleaning: problems and current approaches. IEEE Data Engineering Bulletin, 2000,23(4):3～13.
10Galhardas, H., Florescu, D., Shasha, D., et al. AJAX: an extensible data cleaning tool. In: Chen, W.D., Naughton, J.F., Bernstein, P.A., eds. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. Texas: ACM, 2000. 590.

共引文献342

1梁莉莉,布瑞丰.非遗视频直播的技术逻辑及其潜在风险——基于抖音平台的“田野”观察[J].青海民族研究,2022,33(3):136-141. 被引量：8
2王利民,李硕硕,王学鑫,冯志江,司亚超,邓全才,吴永强.基于grubbs检验的中水压力数据清洗[J].河北建筑工程学院学报,2022,40(4):144-147.
3丁小欧,王宏志,靳贺霖,高猛.时序数据错误检测与修复研究综述[J].智能计算机与应用,2021,11(12):1-6. 被引量：5
4周力,张勃.向Oracle进行数据移植的方法[J].沈阳大学学报,2003,15(2):38-39. 被引量：3
5宋峥嵘,朴春梅.数据质量与数据清理浅谈[J].今日科苑,2009(17).
6毕锟,刘军.ETL系统的设计及其研究[J].软件导刊,2010,9(5):173-175. 被引量：9
7曹建军,刁兴春,陈爽,邵衍振.数据清洗及其一般性系统框架[J].计算机科学,2012,39(S3):207-211. 被引量：32
8刘永楠,邹兆年,李建中,王海洁.数据完整性的评估方法[J].计算机研究与发展,2013,50(S1):230-238. 被引量：11
9李巍巍.大数据技术应用研究[J].自动化与仪器仪表,2016(7):195-196. 被引量：3
10邓莎莎,陈松乔.基于异构数据抽取清洗模型的元数据的研究[J].计算机工程与应用,2004,40(30):175-177. 被引量：5

同被引文献45

1余伟,李石君,洪辉,田建伟.基于覆盖关系的Deep Web数据源排名[J].计算机研究与发展,2007,44(z3):29-34. 被引量：4
2陈苏,柏文阳,徐洁磐.一种新的数据质量模型的研究[J].计算机应用研究,2005,22(7):48-50. 被引量：6
3韩京宇,徐立臻,董逸生.数据质量研究综述[J].计算机科学,2008,35(2):1-5. 被引量：105
4韩京宇,宋爱波,董逸生.数据质量维度量化方法[J].计算机工程与应用,2008,44(36):1-6. 被引量：10
5蒋引娣.元数据质量评价研究[J].图书馆理论与实践,2009(5):39-41. 被引量：3
6宋立荣,李思经.基于网络共享的农业科技信息质量维度分析[J].图书情报工作,2009,53(22):85-88. 被引量：5
7查先进,陈明红.信息资源质量评估研究[J].中国图书馆学报,2010,36(2):46-55. 被引量：81
8余伟,李石君,文利娟,田建伟.基于数据质量的Deep Web数据源排序[J].小型微型计算机系统,2010,31(4):641-646. 被引量：6
9王欣,黄林鹏,章义,徐小辉,陈俊清.A Solution of Data Inconsistencies in Data Integration——Designed for Pervasive Computing Environment[J].Journal of Computer Science & Technology,2010,25(3):499-508. 被引量：1
10李丽娜.网络信息资源质量评价研究综述[J].图书情报工作,2011,55(15):62-66. 被引量：10

引证文献5

1赵星,李石君,余伟,杨莎,丁永刚,胡亚慧.大数据环境下Web数据源质量评估方法研究[J].计算机工程,2017,34(2):48-56. 被引量：19
2汤莉,何丽.基于PAC-Bayes理论的Web文档数据质量评估方法[J].计算机工程与科学,2017,39(3):572-579. 被引量：2
3张宁,袁勤俭.数据质量评价述评[J].情报理论与实践,2017,40(10):135-139. 被引量：24
4王欢,张云峰,张艳.一种基于CFDs规则的修复序列快速判定方法[J].计算机科学,2018,45(3):311-316.
5周艳红.基于大数据的数据质量评估方法研究[J].现代信息科技,2020,4(8):86-89. 被引量：2

二级引证文献46

1崔金栋,李若彤,朱增陈,汪羽晴.融媒体信息定价模型演化研究[J].情报科学,2023,41(11):51-61.
2郭蒙雨,康宏,袁晓洁.基于流式计算框架的实时数据库分区系统[J].计算机工程,2017,43(11):8-15. 被引量：7
3陈晓燕,唐年庆.大数据环境下的Web网络风险估计[J].现代电子技术,2017,40(24):56-58. 被引量：4
4杨建云,张天栋,唐军,凌军,杨千栩.基于大数据提升的烟叶种植环境优化下云产卷烟内在质量研究[J].环境科学与管理,2017,42(11):10-15. 被引量：3
5宋俊典,刘丰源.一种支持数据质量评价的方法与应用研究[J].计算机应用与软件,2018,35(5):328-333. 被引量：15
6李晓彤,翟军,郑贵福.我国地方政府开放数据的数据质量评价研究——以北京、广州和哈尔滨为例[J].情报杂志,2018,37(6):141-145. 被引量：40
7马晓亭,李强.大数据环境下图书馆数据资源质量评估与整体优化研究[J].现代情报,2017,37(9):103-106. 被引量：6
8洪亮,周莉娜,陈珑绮.大数据驱动的图书馆智慧信息服务体系构建研究[J].图书与情报,2018(2):8-15. 被引量：93
9张宁,袁勤俭.用户视角下的学术社交网络信息质量影响因素研究——基于扎根理论方法[J].图书情报知识,2018,35(5):105-113. 被引量：24
10闫实,付佳,刘占波,石莉,石丹.大数据环境下网络信息资源多维评价研究[J].软件,2018,39(12):74-76. 被引量：4

1邓松,万常选,刘喜平,廖国琼.基于用户反馈的深网数据源选择[J].小型微型计算机系统,2012,33(11):2367-2371. 被引量：3
2余肖生,胡孙枝,王东娟,王缓缓.数据仓库构建之数据预备域的数据质量研究[J].重庆理工大学学报（自然科学）,2014,28(10):60-65. 被引量：1
3王路,杜玉越.一种基于校准的模型问题域识别方法[J].山东科技大学学报（自然科学版）,2015,34(1):42-46. 被引量：6
4汪磊.WEB工程中的测试合理化设计[J].电脑开发与应用,2011,24(12):58-60.
5邓松,万常选,刘喜平.基于用户反馈的Web多媒体数据源的选取[J].管理学报,2011,8(12):1831-1834.
6唐锋.基于模糊集的遥感图像质量评价[J].软件导刊,2016,15(12):159-161. 被引量：1
7韩京宇,陈可佳.基于模拟退火的在线Web文档内容数据质量评估[J].计算机应用,2014,34(8):2311-2316. 被引量：1
8顾进广,朱婷婷,黄莉,田萍芳.知识图谱中链接数据质量评价研究综述[J].武汉大学学报（理学版）,2017,63(1):22-38. 被引量：4
9邓松,王映龙,何火娇,余鹰.Web多媒体数据源质量模型[J].微电子学与计算机,2011,28(11):157-159.
10舒绍娴,王大翊.基于RUP的软件测试实施过程[J].科技信息,2012(34):1-1.

计算机科学

2014年第11期

浏览历史

内容加载中请稍等...

基于事实抽取的Web文档内容数据质量评估被引量：5

参考文献24

二级参考文献59

共引文献342

同被引文献45

引证文献5

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于事实抽取的Web文档内容数据质量评估 被引量：5

参考文献24

二级参考文献59

共引文献342

同被引文献45

引证文献5

二级引证文献46

相关作者

相关机构

相关主题

浏览历史

基于事实抽取的Web文档内容数据质量评估被引量：5