期刊文献+
共找到22篇文章
< 1 2 >
每页显示 20 50 100
一种基于地址分词的自动地理编码算法 被引量:29
1
作者 马照亭 李志刚 +1 位作者 孙伟 印洁 《测绘通报》 CSCD 北大核心 2011年第2期59-62,共4页
针对我国多数城市地名/地址表述的不规范性,基于可伸缩地址模型提出地理编码数据库的构建方案,设计一种基于地址分词的自动地理编码算法。首先根据地理编码库编制地址词典,利用地址词典对地名/地址进行地址分词,形成地址要素及其级别;... 针对我国多数城市地名/地址表述的不规范性,基于可伸缩地址模型提出地理编码数据库的构建方案,设计一种基于地址分词的自动地理编码算法。首先根据地理编码库编制地址词典,利用地址词典对地名/地址进行地址分词,形成地址要素及其级别;然后再对地址要素及其级别组合形成查询条件到地理编码库中进行匹配;最后分析影响这种地理编码算法精准度的因素,并提出相应的改进措施。实践证明,该算法匹配准确率高,可以服务于我国数字城市、省区和国家级地理信息化建设。 展开更多
关键词 地址模型 地理编码数据库 地址词典 地址分词 地址匹配 地理编码量化
在线阅读 下载PDF
一种基于规则的模糊中文地址分词匹配方法 被引量:48
2
作者 程昌秀 于滨 《地理与地理信息科学》 CSSCI CSCD 北大核心 2011年第3期26-29,共4页
在研究分析地址模型的基础上,建立了存储标准地址数据集的标准地址库和自定义的地址匹配规则库,提出了一种基于规则的模糊中文地址编码方法。该方法在依据标准地址库分词的同时,也沿着自定义的地址匹配规则进行推理,从而缩小了下次分词... 在研究分析地址模型的基础上,建立了存储标准地址数据集的标准地址库和自定义的地址匹配规则库,提出了一种基于规则的模糊中文地址编码方法。该方法在依据标准地址库分词的同时,也沿着自定义的地址匹配规则进行推理,从而缩小了下次分词所用到的目标数据集,提高了系统执行效率。另外,通过借助构建的规则树与歧义栈,提高了文中定义的两类模糊地址匹配的成功率。最后,基于该算法建立了一个地理编码原型系统,并利用经济普查项目中的相关数据对算法的可用性进行了验证。 展开更多
关键词 地理编码 模糊地址 规则库 地址分词
在线阅读 下载PDF
基于置信度的Active-BiLSTM-CRF中文层级地址分词方法 被引量:3
3
作者 侯位昭 张欣海 +2 位作者 宋凯磊 韩志卓 张世立 《中国电子科学研究院学报》 北大核心 2021年第7期639-644,660,共7页
中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述... 中文层级地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的重点。高质量中文地址层级提取方法通常依赖于大量人工标注数据,而获取带标注的数据集耗时长,成本昂贵,不易实现。为解决上述问题,文中提出基于置信度的双向长短时记忆和条件随机场主动学习混合模型(Active-BiLSTM-CRF)来构建地址词库,创新性的基于CRF模型在样本上的置信度高效筛出需要标注的关键地址样本,利用BiLSTM记忆地址的上下文信息,通过CRF的转移概率矩阵控制地址标注输出的能力,循环标注并训练模型。最后基于某区县户籍地址数据验证了该方法在有限标注成本下的准确率及召回率,实验显示当标记数据占比在20%时,Active-BiLSTM-CRF模型准确率能达到97.71%,召回率能达到97.34%。 展开更多
关键词 主动学习 置信度 地址分词 双向长短时记忆网络 条件随机场 地址分词标注
在线阅读 下载PDF
一种中文地址知识库支撑的中文地址分词算法 被引量:11
4
作者 赵成 李滨 《测绘科学技术学报》 CSCD 北大核心 2017年第6期639-643,648,共6页
针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅... 针对中文地址非结构化、不规范的特点,在构建中文地址模版和中文地址词典等重要知识库基础上,基于中文地址模版引入了中文地址分词的预处理;并在中文地址词典的支撑下采用逆向最大匹配算法实现了中文地址分词。新中文地址分词算法不仅在正确率和召回率等指标上优于传统算法,更提出了一种用于解决未登录地址名词识别问题的新方法。 展开更多
关键词 中文地址 中文地址知识库 中文地址分词 逆向最大匹配算法 未登录地址名词
在线阅读 下载PDF
基于ELMo-BiLSTM-CRF模型的中文地址分词 被引量:5
5
作者 余俊 于文年 彭艳兵 《电子设计工程》 2021年第20期72-76,共5页
为了解决传统基于规则的方法在处理中文地址分词的过程中,存在的分词效率低、需要人工维护字典且对中文地址中有歧义的字段无法正常解析等问题,文中提出在对中文地址分词的过程中,采用ELMo预训练模型的方式和嵌套BiLSTM-CRF的方法提升... 为了解决传统基于规则的方法在处理中文地址分词的过程中,存在的分词效率低、需要人工维护字典且对中文地址中有歧义的字段无法正常解析等问题,文中提出在对中文地址分词的过程中,采用ELMo预训练模型的方式和嵌套BiLSTM-CRF的方法提升整体分词效率。该模型考虑到ELMo模型生成的词向量与上下文有关,BiLSTM能够有效解决输入序列的特征提取,且CRF可以通过状态转移矩阵进行训练优化。采用自建的训练样本集对模型进行训练时,分别运用了ELMo-BiLSTM-CRF、BiLSTM-CRF以及BiLSTM,并进行对比。结果表明,ELMo-BiLSTM-CRF模型的分词效果更佳,具有更高的准确率。 展开更多
关键词 中文地址 中文地址分词 ELMo-BiLSTM-CRF模型 预训练模型
在线阅读 下载PDF
基于BERT的中文地址分词方法 被引量:3
6
作者 孙士琦 汤鲲 《电子设计工程》 2021年第9期155-159,共5页
针对传统中文地址分词工作中存在的准确率差,识别率低的问题,提出了一种基于BERT的中文地址分词方法。同时,将非行政级别的地址标签进行重新设计,并通过构建BERT-BiLSTM-CRF模型,将中文地址分词任务转换为命名实体识别任务。利用大量全... 针对传统中文地址分词工作中存在的准确率差,识别率低的问题,提出了一种基于BERT的中文地址分词方法。同时,将非行政级别的地址标签进行重新设计,并通过构建BERT-BiLSTM-CRF模型,将中文地址分词任务转换为命名实体识别任务。利用大量全国地址数据对BERT进行训练,获取文本抽象特征;利用双向长短时记忆网络将文本序列化并结合上下文进一步获取文本特征;通过条件随机场获取最优序列,提取出正确的地址级别。该方法在所使用训练数据集上取得了98.21%的精确率和98.23的F1值,证明了该方法的有效性。 展开更多
关键词 BERT 中文地址分词 长短时记忆网络 条件随机场 命名实体识别
在线阅读 下载PDF
基于标志词的正向自适应长度匹配的地址分词算法与缺失地址要素补充方法 被引量:1
7
作者 李净 朱贵鲜 +1 位作者 周亮 郑西川 《中国医疗设备》 2019年第4期112-114,130,共4页
目的将电子病历中患者的非结构化地址信息转化成结构化地址信息,并补充地址中缺失的地址要素。方法构建存储标准地址数据集的标准地址库和自定义的地址匹配规则库。依托标准地址库,采用基于地址要素标志的正向自适应匹配算法将地址进行... 目的将电子病历中患者的非结构化地址信息转化成结构化地址信息,并补充地址中缺失的地址要素。方法构建存储标准地址数据集的标准地址库和自定义的地址匹配规则库。依托标准地址库,采用基于地址要素标志的正向自适应匹配算法将地址进行分词。将分词得到的地址要素根据构建的自定义地址匹配规则库从后往前查找,得到完整的地址。结果该方法实现了病历中地址数据的自动分词,同时补充了地址数据中缺失的地址要素,完成地址标准化的工作。结论本研究极大地方便了临床病案首页中地址信息的自动获取、各类机构数据上报和数据统计分析工作,大幅减少人工数据处理的工作量,为后续其他信息的提取和标化打下坚实基础。 展开更多
关键词 地址分词 正向自适应长度匹配 缺失地址要素补充 结构化地址
在线阅读 下载PDF
地址要素识别机制的地名地址分词算法 被引量:26
8
作者 赵阳阳 王亮 仇阿根 《测绘科学》 CSCD 北大核心 2013年第5期74-76,共3页
本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于整词二分分词词典,采用FMM算法,增加了基于地址要素的识别机制,从而有效地实现了对地名地址串的拆分。识... 本文在介绍分析常用中文分词方法及其特点的基础上,针对地名地址字符串,提出基于地址要素识别机制的地名地址分词算法。该算法基于整词二分分词词典,采用FMM算法,增加了基于地址要素的识别机制,从而有效地实现了对地名地址串的拆分。识别机制通过判断地址要素的完整性完成对未登录地址名称的处理,解决了分词算法对未登录地址名称的识别问题。测试证明新算法能够有效实现对地名地址串的拆分,从很大程度上解决对未登录地址名称的识别问题。 展开更多
关键词 中文分词 地名地址分词 未登录词识别 分词词典
原文传递
基于BiLSTM-CRF的中文层级地址分词 被引量:16
9
作者 程博 李卫红 童昊昕 《地球信息科学学报》 CSCD 北大核心 2019年第8期1143-1151,共9页
中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特... 中文地址分词是中文地址标准化的基础工作和地理编码的重要手段,同时也是中文分词和地理研究领域中关注的热点问题之一。针对当前中文地址分词方法缺乏地址层级切分和过多依赖词典和特征的问题,本研究结合四词位标注集和中文层级地址特点,构建针对中文层级地址分词的地址标注体系,并提出融合双向长短时记忆网络和条件随机场(BiLSTM-CRF)的中文层级地址分词模型。该模型既考虑了BiLSTM模型能够记忆上下文地址的特性,也保留了CRF算法可以通过转移概率矩阵控制地址标注输出的能力。针对该地址标注体系标注的训练地址样本,分别使用CRF、LSTM、BiLSTM与BiLSTM-CRF模型进行训练对比。结果表明:①基于中文地址标注体系的模型分词效果更佳,地址标注更为精细,符合实际地址分布情况;②BiLSTM-CRF模型精确度达到93.4%,高于CRF(90.4%)、LSTM(89.3%)和BiLSTM(91.2%),其整体地址分词性能和各层级地址分词效果相对于其他模型更突出;③各模型分词性能与地址层级保持一致,即地址层级越高,分词效果越好。本研究提出的中文地址标注体系和分词模型为开展中文地址标准化工作提供了方法参考,同时也为进一步提升地理编码技术的精准度提供了可能。 展开更多
关键词 中文分词 地址标注 中文层级地址分词 长短时记忆网络(LSTM) 双向长短时记忆和条件随机场模型(BiLSTM-CRF)
原文传递
基于分词技术的地址标准化治理方法与实现
10
作者 葛燕 杨海杰 《大众标准化》 2023年第15期4-6,共3页
由于公众对于地址使用习惯的随意性,现有业务系统地址记录都是由用户口述或自由填写的地址,造成地址数据采集不规范、填写不标准等问题,无法和规范的标准地址串完全契合,给地址匹配、地址定位、问题分析、任务分派、快速解决等工作带来... 由于公众对于地址使用习惯的随意性,现有业务系统地址记录都是由用户口述或自由填写的地址,造成地址数据采集不规范、填写不标准等问题,无法和规范的标准地址串完全契合,给地址匹配、地址定位、问题分析、任务分派、快速解决等工作带来极大困难。文章是在工作实践基础上,归纳总结出一种基于分词技术,对地址进行摘要匹配,通过匹配结果复核取优的地址标准化治理方法,提出一种可以充分利用标准地址和业务地址数据的新思路、新方法。测试结果表明,该方法能将地址标准匹配度提升40%以上,可直接应用到城市人口精准治理等领域,具有重要的应用和研究价值。 展开更多
关键词 地址 标准地址 地址分词 数据治理 散列
在线阅读 下载PDF
面向柳州市时空信息云平台的地名地址全生命周期更新运营管理建设实践
11
作者 廖菊燕 杨绍兴 《测绘通报》 CSCD 北大核心 2024年第S01期230-236,共7页
地名地址是柳州时空信息云平台的重要组成部分之一,但是各类政务数据里面的地址标准不一、地址表述多样、地址运营更新困难,严重制约着时空信息云平台公共服务效率的进一步提升。据此,本文探讨了一种基于地名地址模型的全生命周期更新... 地名地址是柳州时空信息云平台的重要组成部分之一,但是各类政务数据里面的地址标准不一、地址表述多样、地址运营更新困难,严重制约着时空信息云平台公共服务效率的进一步提升。据此,本文探讨了一种基于地名地址模型的全生命周期更新运营管理方法,通过引入社会企业地名地址大数据运营管理的实践能力,结合时空信息云平台的定位,采用人工智能地名地址匹配、深度学习的地址分词、地址语义图谱和归一化地址关联匹配等技术,确保柳州市地名地址数据表述更加标准、语义更加丰富;最终为各部门提供更加准确、翔实的地名地址服务,以满足“智慧城市”多样化应用的需求。 展开更多
关键词 地名地址模型 地名地址分词 语义图谱 全生命周期管理
在线阅读 下载PDF
基于概率统计模型的快递地址自动分类方法 被引量:5
12
作者 邵妍 刘燕兵 +1 位作者 谭建龙 郭莉 《计算机工程》 CAS CSCD 2012年第23期277-280,283,共5页
快递货物在中转点向取送点分拣时需要人工判断收货地址所属取送点,为提高分拣的自动化程度和分拣速度,提出一种基于概率统计分类模型的快递地址自动分类方法。该方法以基于概率统计的地址分类模型为核心,通过统计出的最小地址要素与取... 快递货物在中转点向取送点分拣时需要人工判断收货地址所属取送点,为提高分拣的自动化程度和分拣速度,提出一种基于概率统计分类模型的快递地址自动分类方法。该方法以基于概率统计的地址分类模型为核心,通过统计出的最小地址要素与取送点的对应概率分布,对快递地址所属的取送点做出判断。在某快递公司提供的快递地址分类数据上的实验结果表明,该方法的自动分类准确率可达99%以上,每个地址的分类用时为0.43 ms。 展开更多
关键词 快递地址 自动分类 快递分拣 概率统计 中文地址分词 停用字符过滤
在线阅读 下载PDF
上海市地址数据采集更新方法研究 被引量:1
13
作者 王伟 《矿山测量》 2018年第6期113-116,共4页
通过大数据分析和归纳,将上海市地址数据分为城镇道路、城市老区、城镇新村、农村村落和农场大队五种模型。通过开发软件,对五种地址模型增、删、改进行限定,形成一套符合上海市地址数据特点的采集更新方法,为地址分词、地址匹配等应用... 通过大数据分析和归纳,将上海市地址数据分为城镇道路、城市老区、城镇新村、农村村落和农场大队五种模型。通过开发软件,对五种地址模型增、删、改进行限定,形成一套符合上海市地址数据特点的采集更新方法,为地址分词、地址匹配等应用提供数据支撑。 展开更多
关键词 地址标准化 地址模型 地址分词
在线阅读 下载PDF
多策略中文地址匹配方法 被引量:2
14
作者 彭雨龙 胡顺石 吴涛 《测绘通报》 CSCD 北大核心 2022年第2期145-148,共4页
地址匹配是地理编码过程中一个关键环节,是实现数据空间化的关键技术之一。针对当前中文地址匹配方法的精确率、匹配率和时间开销不能兼顾的问题,本文提出了一种多策略中文地址匹配方法。通过建立轻量级的词典进行中文地址分词,同时构... 地址匹配是地理编码过程中一个关键环节,是实现数据空间化的关键技术之一。针对当前中文地址匹配方法的精确率、匹配率和时间开销不能兼顾的问题,本文提出了一种多策略中文地址匹配方法。通过建立轻量级的词典进行中文地址分词,同时构建多叉树存储分词后的地址数据,匹配过程中结合模糊匹配和层级回溯匹配共同完成地址匹配工作,最终基于真实数据进行了试验。试验结果表明,该方法在匹配率、精确率和时间开销3个指标上较当前其他匹配方法表现得更加均衡。 展开更多
关键词 地址匹配 中文地址分词 多叉树 层级回溯 余弦相似度
在线阅读 下载PDF
基于统计的中文地址位置语义解析方法研究 被引量:8
15
作者 谢婷婷 严柯 《软件导刊》 2017年第10期19-21,共3页
为获取中文自然地址描述语句中的位置信息,提出一种不依赖于词典的中文地址分词方法。首先根据地址语料库中字串共现的统计规律统计词频,然后对地名地址串进行正则表达式预处理,再对地址串进行全切分处理。通过互信息和信息熵得到最优... 为获取中文自然地址描述语句中的位置信息,提出一种不依赖于词典的中文地址分词方法。首先根据地址语料库中字串共现的统计规律统计词频,然后对地名地址串进行正则表达式预处理,再对地址串进行全切分处理。通过互信息和信息熵得到最优粗分结果,通过置信度对粗分结果进行过滤得到最优分词结果。实验结果表明,该方法在不依赖词典的情况下能有效实现对地名地址串的拆分,正确率和召回率分别达到了80.03%和89.28%。 展开更多
关键词 中文分词 地名地址分词 互信息 信息熵
在线阅读 下载PDF
基于LEBERT-CRF和知识图谱的中文地址修正补全方法
16
作者 王钦民 刘鹏 邓国威 《计算机科学与应用》 2023年第4期808-818,共11页
为解决人工中文地址因输入不准确造成的地址解析错误问题,本文首先结合词汇增强的基于Transformer的双向编码表征模型(LEBERT)与条件随机场(CRF),提出了LEBERT-CRF模型,相较BERT-长短期记忆-CRF模型(BERT-BiLSTM-CRF)在分词准确率、召... 为解决人工中文地址因输入不准确造成的地址解析错误问题,本文首先结合词汇增强的基于Transformer的双向编码表征模型(LEBERT)与条件随机场(CRF),提出了LEBERT-CRF模型,相较BERT-长短期记忆-CRF模型(BERT-BiLSTM-CRF)在分词准确率、召回率以及F值上分别提升了1.45%、1.89%和1.67%。然后,通过标准层级地址数据,并引入别名、旧名等地址信息构建了地址知识图谱库。最终,利用经过分词处理的地址数据,并根据地址数据存在的几种可能错误类型,设计出一种基于地址知识图谱库的匹配算法,对分词完的地址数据进行匹配修正并得到准确地址信息,相较于中文省份城市地区匹配器(CPCA),地址解析在一级地址、二级地址、三级地址上解析准确率分别提升了2.12%、2.36%和1.12%。 展开更多
关键词 中文地址分词 中文地址匹配 LEBERT CRF 知识图谱
在线阅读 下载PDF
结合词典和句法依存树的地址场所实体分类
17
作者 蒋言 刘海 毛雪宇 《电脑知识与技术》 2023年第20期83-86,共4页
针对需要从地址数据中关联出场所实体类别的现实需求,根据地址数据的句法特征引入依存句法树对中文分词操作后的地址数据进行解析,生成最优地址依存树,并设定相应规则从依存树各节点处获取目标场所实体,与场所类别POI词典进行匹配,获取... 针对需要从地址数据中关联出场所实体类别的现实需求,根据地址数据的句法特征引入依存句法树对中文分词操作后的地址数据进行解析,生成最优地址依存树,并设定相应规则从依存树各节点处获取目标场所实体,与场所类别POI词典进行匹配,获取场所实体类别。实验使用18261条业务地址数据进行验证,证明了所提方法的有效性。 展开更多
关键词 地址数据 场所分类 中文地址分词 依存句法分析 POI词典
在线阅读 下载PDF
上海城市地理编码系统应用与研究 被引量:10
18
作者 夏兰芳 毛炜青 郭功举 《测绘通报》 CSCD 北大核心 2012年第1期78-80,共3页
基于地理编码必须本地化的客观要求,建立适合上海市特点的地理编码系统。该系统一方面可为广大市民日常基于位置的服务提供技术支持;另一方面,还可以灵活嵌入到政府各部门的应用系统中,为政府部门信息资源的综合开发、利用奠定坚实的基础。
关键词 地理编码 地址模型 地理编码数据库 地址分词 全文索引 地址匹配
在线阅读 下载PDF
统计决策树下的城市地址集中文分词 被引量:10
19
作者 应申 李威阳 +2 位作者 贺彪 王维 万远 《武汉大学学报(信息科学版)》 EI CSCD 北大核心 2019年第2期302-309,共8页
不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点... 不同于常规的需要依赖城市地址词典或规则库的地址分词模型,提出不依赖地址词典、基于海量地址数据挖掘的分词方法。该方法结合统计规律计算地址要素在地址数据集中的分布特征,挖掘地址数据中分词的后缀点和落差点,根据后缀点和落差点的相对位置关系构建统计决策树提取地址要素;并采用深圳市建筑物地址普查数据进行验证,形成对当前地址地名词典的有益补充。 展开更多
关键词 中文地址分词 决策树 地址要素 地址
原文传递
Lucene自适应分词的地址匹配方法改进与实现 被引量:4
20
作者 张琛 陈张建 +2 位作者 刘江涛 任福 张红伟 《测绘科学》 CSCD 北大核心 2021年第10期185-193,共9页
为提高地理编码系统对输入地址的分词适应性及匹配准确度,该文基于Lucene索引及查询机制提出了一种可适应于中文非标准地址的地址匹配改进方法。首先依据中文地址模式创建地址元素分层索引库,然后将拼音三叉树、同义词配置、未登录词配... 为提高地理编码系统对输入地址的分词适应性及匹配准确度,该文基于Lucene索引及查询机制提出了一种可适应于中文非标准地址的地址匹配改进方法。首先依据中文地址模式创建地址元素分层索引库,然后将拼音三叉树、同义词配置、未登录词配置等功能集成于IK分词器,获得初次匹配结果集合后计算编辑距离并排序选取返回值。匹配系统以浙江省台州市公安地址及行政法人地址为数据基础构建分词库和索引库,结果表明,该方法可实现输入地址的自适应分词,对中文非标准地址的匹配效果良好,能够服务于测绘和地理信息的相关应用场景。 展开更多
关键词 地址匹配 地理编码 地址树模型 Lucene全文检索 地址分词 中文非标准地址 地址标准化
原文传递
上一页 1 2 下一页 到第
使用帮助 返回顶部