期刊文献+
共找到177篇文章
< 1 2 9 >
每页显示 20 50 100
基于Scrapy的农业网络信息采集技术
1
作者 李金 费晶 张玲 《农村科学实验》 2025年第1期96-98,共3页
在信息化时代背景下,互联网已成为信息传播与交流的重要平台,尤其是在农业领域,网络信息的快速获取与有效利用对于推动农业现代化、促进农业科技发展具有不可估量的价值。农业网络信息不仅涵盖政策法规、市场动态、技术革新等多个方面,... 在信息化时代背景下,互联网已成为信息传播与交流的重要平台,尤其是在农业领域,网络信息的快速获取与有效利用对于推动农业现代化、促进农业科技发展具有不可估量的价值。农业网络信息不仅涵盖政策法规、市场动态、技术革新等多个方面,还直接关乎农民的生产决策、农产品的销售,以及农业产业链的整合与优化。基于此,该文对基于Scrapy的农业网络信息采集技术进行了深入探究,旨在高效、准确地从海量网络资源中采集并筛选出有价值的农业信息,为农业领域的发展提供助力。 展开更多
关键词 scrapy 农业网络信息 信息采集 网络爬虫
在线阅读 下载PDF
基于Scrapy框架的互联网招聘信息可视化技术研究 被引量:1
2
作者 郑灿伟 贺丹 +3 位作者 罗嘉惠 李琼娜 潘泽松 钟颖棋 《科技与创新》 2024年第6期6-10,共5页
互联网技术的飞速发展给人们获取信息带来了便利,而爆炸式增长的数据也为信息分析带来了挑战。尤其是毕业生在面对海量招聘数据时,容易迷失在海量数据中,因此本文借助网络爬虫Scrapy框架从招聘网站爬取了大量招聘岗位数据,并通过数据预... 互联网技术的飞速发展给人们获取信息带来了便利,而爆炸式增长的数据也为信息分析带来了挑战。尤其是毕业生在面对海量招聘数据时,容易迷失在海量数据中,因此本文借助网络爬虫Scrapy框架从招聘网站爬取了大量招聘岗位数据,并通过数据预处理、数据分析、数据可视化等一系列操作实现招聘信息的智能化分析。一方面能够及时了解招聘岗位的详细需求情况,为高校毕业生求职指明方向;另一方面便于高校根据市场人才需求情况及时调整人才培养方案,为社会培养出符合市场需求的高质量人才。 展开更多
关键词 scrapy框架 招聘信息 数据分析 可视化
在线阅读 下载PDF
基于Scrapy和Elasticsesarch的网站敏感词检测系统 被引量:2
3
作者 郭向民 袁许龙 朱洛凌 《网络空间安全》 2024年第1期70-75,共6页
[目的/意义]随着互联网信息的爆发式增长,网页中出现的敏感词容易引发社会争议与冲突.在网络空间治理过程中,迅速处理和反馈至关重要.然而,传统的人工审核网站内容的方式已经无法满足需求.因此,自动化的敏感词检测系统成为有效减少敏感... [目的/意义]随着互联网信息的爆发式增长,网页中出现的敏感词容易引发社会争议与冲突.在网络空间治理过程中,迅速处理和反馈至关重要.然而,传统的人工审核网站内容的方式已经无法满足需求.因此,自动化的敏感词检测系统成为有效减少敏感信息传播、维护网络空间稳定和安全的一种重要工具.[方法/过程]设计并实现了一种基于Scrapy和Elasticsearch的敏感词检测系统,采用Scrapy爬虫获取特定网站内容,使用Elasticsearch存储网页内容,并借助提供的中文分词、倒排索引和全文检索技术,实现对网页内容中敏感词的检测,采用流行的前后端框架Vue+Flask完成整个系统的开发.[结果/结论]系统支持用户自定义敏感词列表,可以实现对特定网站内容的定时爬取和定时检测,并将检测出敏感词后通过电子邮件通知网站管理员,从而有效地加强了对网站的管理能力. 展开更多
关键词 scrapy Elasticsearch 敏感词检测 网络空间治理 网络安全
在线阅读 下载PDF
基于Scrapy和Flask的招聘信息自动化采集与数据可视化系统的设计与实现
4
作者 陆赟 《现代计算机》 2024年第19期74-79,90,共7页
随着网络信息技术的飞速发展,招聘网站已成为求职者和雇主获取和发布职位信息的重要平台。然而,由于信息海量且分布不均,用户往往需要花费大量时间筛选和分析这些数据。为解决这一问题,提出了一个基于Scrapy和Flask技术的系统,旨在自动... 随着网络信息技术的飞速发展,招聘网站已成为求职者和雇主获取和发布职位信息的重要平台。然而,由于信息海量且分布不均,用户往往需要花费大量时间筛选和分析这些数据。为解决这一问题,提出了一个基于Scrapy和Flask技术的系统,旨在自动化采集招聘信息并提供数据可视化功能。系统利用Scrapy框架高效地从多个招聘网站抓取实时职位信息,并通过Flask框架搭建的后端服务提供数据的存储、管理和查询功能。同时,通过前端数据可视化技术将采集的数据以直观的方式展示给用户,帮助用户快速了解市场动态和职位趋势。 展开更多
关键词 scrapy FLASK 数据采集 数据可视化 招聘信息
在线阅读 下载PDF
Scrapy框架辅助下的Python爬虫系统研究
5
作者 吕新超 《电脑知识与技术》 2024年第7期49-52,56,共5页
为了解决传统网络爬虫在大型网站上提取信息效率不高的问题,研究引入了Scrapy框架作为Python网络爬虫的提取方法。以某图书网站为案例,文章深入分析了该网站的页面结构,编写了高效的爬虫文件源码,用于提取目标网站的关键信息,包括图书... 为了解决传统网络爬虫在大型网站上提取信息效率不高的问题,研究引入了Scrapy框架作为Python网络爬虫的提取方法。以某图书网站为案例,文章深入分析了该网站的页面结构,编写了高效的爬虫文件源码,用于提取目标网站的关键信息,包括图书名称、价格、定价、作者和销量排名等。研究结果表明,通过对主流网站的信息提取实验,在实际应用中展示了该方法取得了良好的效果,可以成功提出需要的信息,并根据提取出的图书价格和销量排名信息可以分析出价格与销量之间的关系,实现了对大型网站的信息提取任务。研究为爬虫技术在数据采集和分析领域的应用提供了有力的支持,为信息爬取与处理提供了新的解决方案。 展开更多
关键词 网络爬虫 scrapy框架 PYTHON语言 数据采集
在线阅读 下载PDF
基于Scrapy框架的分布式网络爬虫系统设计
6
作者 何佳知 《电子产品世界》 2024年第6期31-34,共4页
为保证网络爬虫抓取效率和稳定性,通过应用Scrapy框架,完成对分布式网络爬虫系统的设计。首先,介绍网络爬虫工作原理、Scrapy框架等相关技术。其次,在设计系统架构和系统数据库的基础上,分别设计代理池服务、实体管道、网页判重、网页... 为保证网络爬虫抓取效率和稳定性,通过应用Scrapy框架,完成对分布式网络爬虫系统的设计。首先,介绍网络爬虫工作原理、Scrapy框架等相关技术。其次,在设计系统架构和系统数据库的基础上,分别设计代理池服务、实体管道、网页判重、网页下载等模块。最后,测试系统性能。结果显示,设计的系统具有网页抓取成功率高、运行效率高等特点,符合预期设计标准和要求,可以为相关人员提供有效的借鉴和参考。 展开更多
关键词 scrapy框架 分布式 网络爬虫系统
在线阅读 下载PDF
基于Scrapy的分布式爬虫系统的设计与实现 被引量:18
7
作者 李代祎 谢丽艳 +1 位作者 钱慎一 吴怀广 《湖北民族学院学报(自然科学版)》 CAS 2017年第3期317-322,共6页
随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不... 随着互联网的快速发展,其信息量和相关服务也随之快速增长.如何从海量的信息中快速、准确地抓取所需要的信息变得越来越重要,因此负责互联网信息收集工作的网络爬虫将面临着巨大的机遇和挑战.目前国内外一些大型搜索引擎只给用户提供不可制定的搜索服务,而单机的网络爬虫又难当重任,因此可定制性强、信息采集速度快和规模大的分布式网络爬虫便应运而生.通过对原有Scrapy框架的学习和研究,将Scrapy和Redis结合改进原有的爬虫框架,设计并实现了一个基于Scrapy框架下的分布式网络爬虫系统,然后将从安居客、58同城、搜房等网站抓取的二手房信息存入MongoDB中,便于对数据进行进一步的处理和分析.结果表明基于Scrapy框架下的分布式网络爬虫系统同单机网络爬虫系统相比效率更高且更稳定. 展开更多
关键词 scrapy 分布式 scrapy-Reids 网络爬虫 Mongo DB 数据存储
在线阅读 下载PDF
基于Scrapy的深层网络爬虫研究 被引量:29
8
作者 刘宇 郑成焕 《软件》 2017年第7期111-114,共4页
随着大数据时代的到来,网络爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文,获得大量数据并且对数据进行分析都是必不可少的。但是目前存在深层网(Deep Web)的数据量是表层网(Surface Web)数据量的数百倍,乃至上千倍。... 随着大数据时代的到来,网络爬虫已经成为很普遍的技术,无论是做项目、科研、创业或者写论文,获得大量数据并且对数据进行分析都是必不可少的。但是目前存在深层网(Deep Web)的数据量是表层网(Surface Web)数据量的数百倍,乃至上千倍。传统的爬虫对表层网数据进行获取已经无法满足我们的需求,同时因为深层网数据通常没有各种复杂的标签结构等,使得其本身更加清晰,干净,故而我们深入研究深层网络爬虫是非常有必要的。本文将会通过Python的Scrapy爬虫框架,对深层网络爬虫进行研究,通过分析深层网络特点制定合适的Scrapy爬虫策略,最后通过实际操作,对指定的爬虫策略进行验证。 展开更多
关键词 深层网 网络爬虫 scrapy PYTHON
在线阅读 下载PDF
基于Scrapy的网络爬虫系统框架设计与实现 被引量:10
9
作者 王磊 刘晓丹 《微型电脑应用》 2019年第4期48-50,共3页
研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实... 研究了基于Scrapy的网络爬虫系统框架。以设计目标为依据对网络爬虫所需具备的功能特性进行了详细分析,完成了系统总体框架的设计。该框架采用主从结构,介绍了各层主要模块的功能,详细阐述了完整的抓取过程。为促进网络爬虫系统框架的实现,综合MongoDB及Redis,完成了系统数据库方案的设计,从而提高用户获取信息的速度和质量。 展开更多
关键词 scrapy 网络爬虫 系统框架设计 数据库设计
在线阅读 下载PDF
基于Scrapy的工业漏洞爬虫设计 被引量:7
10
作者 孙歆 戴桦 +1 位作者 孔晓昀 赵明明 《网络空间安全》 2017年第1期66-71,共6页
工业控制系统的漏洞是工业安全中极其重要的资源信息,也是对工控系统进行威胁分析和安全等级鉴定的重要依据。论文设计实现了一个基于Scrapy的工业漏洞网络爬虫,能对工控系统安全漏洞网站上的漏洞信息进行抓取和分析,并进行结构化处理,... 工业控制系统的漏洞是工业安全中极其重要的资源信息,也是对工控系统进行威胁分析和安全等级鉴定的重要依据。论文设计实现了一个基于Scrapy的工业漏洞网络爬虫,能对工控系统安全漏洞网站上的漏洞信息进行抓取和分析,并进行结构化处理,为实际项目开发提供重要的漏洞数据信息。 展开更多
关键词 工业控制系统 工控漏洞 爬虫 scrapy
在线阅读 下载PDF
基于Scrapy的中药材网络信息采集方法研究 被引量:2
11
作者 张喜红 王玉香 《江汉大学学报(自然科学版)》 2018年第6期522-527,共6页
以中药材天地网站的信息收集为例,基于Scrapy框架设计了中药材品名、规格、产地、价格等信息提取的爬虫。首先,借助浏览器的网页审查元素工具分析目标网页的结构,并抽取目标元素的XPath路径;接着,采用Scrapy框架构建网络爬虫工程,分别... 以中药材天地网站的信息收集为例,基于Scrapy框架设计了中药材品名、规格、产地、价格等信息提取的爬虫。首先,借助浏览器的网页审查元素工具分析目标网页的结构,并抽取目标元素的XPath路径;接着,采用Scrapy框架构建网络爬虫工程,分别在相应的文件中设计目标元素的解析规则及元素的存储方法;最后利用设计的爬虫采集目标网站信息进行测试,以西洋参、三七为例,将线上采集数据与线下实地调研的数据进行对比。结果表明,所设计的爬虫能快速、高效、准确获取目标网站的信息,且与线下实地调研数据相符,可为后续的研究提供数据支撑。 展开更多
关键词 scrapy 中药材 爬虫
在线阅读 下载PDF
基于Scrapy和Elasticsearch的校园网搜索引擎的研究与实现 被引量:3
12
作者 庄旭菲 田雪 《科技资讯》 2019年第29期12-15,共4页
针对通用搜索引擎无法及时收录校园网内信息和收录时间滞后的问题,基于Scrapy框架和Elasticsearch全文搜索引擎,提出了一个完善的校园网搜索引擎解决方案。该文主要分析了Scrapy的运行流程,对Elasticsearch的搜索机制进行了研究,在此基... 针对通用搜索引擎无法及时收录校园网内信息和收录时间滞后的问题,基于Scrapy框架和Elasticsearch全文搜索引擎,提出了一个完善的校园网搜索引擎解决方案。该文主要分析了Scrapy的运行流程,对Elasticsearch的搜索机制进行了研究,在此基础上设计了校园网搜索引擎的系统架构,给出了系统的网页抓取模块、索引检索模块、页面展示模块的关键实现技术。最后通过实验验证,相比于传统的通用搜索引擎,该文设计的校园网搜索引擎的搜索结果相关性更好,数量更多,对于校园网内新信息的收录情况更好。 展开更多
关键词 校园网搜索引擎 scrapy Elasticsearch 中文分词
在线阅读 下载PDF
基于Scrapy爬虫框架下电商数据分析 被引量:4
13
作者 黄雨辰 童彤 《安阳师范学院学报》 2021年第5期132-136,共5页
电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上... 电子商务快速发展的过程中产生了海量数据,对海量数据的分析能够挖掘有用信息,提升电商企业核心竞争力。基于此,设计了一款基于Scrapy爬虫框架下的电商数据分析平台。采用分布式抓取海量电商数据,寻找电商消费者的消费特点。在此基础上采集顾客、商品、品牌三方面数据进行整合处理,并将处理结果可视化,展现给电商企业,为电商企业快速了解消费者的消费特点,制定科学化的营销战略提供了数据参考。 展开更多
关键词 scrapy爬虫框架 电商数据 可视化
在线阅读 下载PDF
基于Scrapy框架的微博用户信息采集系统设计与实现 被引量:2
14
作者 朱烨行 赵宝莹 +2 位作者 张明杰 魏笑笑 卫昆 《现代信息科技》 2023年第24期41-44,48,共5页
为深入了解新浪微博用户的有关情况,从中找出最有影响力的微博用户,发现当前新浪微博中的意见领袖,需要知道每位微博用户迄今为止已发表的微博数、关注数和粉丝数等信息。为此使用Python语言设计实现了一个基于Scrapy框架的网络爬虫,该... 为深入了解新浪微博用户的有关情况,从中找出最有影响力的微博用户,发现当前新浪微博中的意见领袖,需要知道每位微博用户迄今为止已发表的微博数、关注数和粉丝数等信息。为此使用Python语言设计实现了一个基于Scrapy框架的网络爬虫,该爬虫根据输入的微博用户标识号ID抓取该用户目前已发表的微博数、关注数和粉丝数等信息。由于要连续多次访问微博网站,为了不让微博网站拒绝访问,在设计的爬虫中使用了用户代理和IP代理,其中IP代理选用隧道代理这一动态类型。实验结果表明下载七千多位微博用户的信息用时6小时22分钟。 展开更多
关键词 scrapy 网络爬虫 微博 用户代理 IP代理
在线阅读 下载PDF
基于Scrapy框架的爬虫设计 被引量:12
15
作者 王海玲 周志彬 《软件导刊》 2020年第4期224-228,共5页
利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Panda... 利用Python编程语言的Scrapy框架,为猫眼网站设计一个网络爬虫程序,对猫眼网页中《复仇者联盟4》的用户评论进行抓取。对抓取下来的网页信息进行信息提取,并将有用信息转换为dataframe格式存储到csv文件中;再将csv文件中的数据通过Pandas库进行提取排列,并利用Pyecharts库生成可视化图表的html页面;最后修改url中的setoff属性,通过改变starTtime的值,成功获取了更多评论。结果表明,比正常获取评论数的最大值990条多了16倍。 展开更多
关键词 scrapy框架 爬虫 数据可视化
在线阅读 下载PDF
基于Scrapy的物流资讯网站群爬虫系统设计与实现 被引量:6
16
作者 邓子云 《物流技术与应用》 2020年第8期140-143,共4页
为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计... 为自动收集全国物流行业的资讯数据,用于后续大数据分析与展示,基于Scrapy框架研发了一个物流资讯网站群爬虫系统。该系统在功能需求上重点实现全站爬取、增量爬取、异常处理、爬虫伪装、数据库操作等五个方面的功能。在技术架构的设计和实现上,在Scrapy框架的基础上重点研发了该系统的网页数据库、数据项、网站群爬虫、项目管道、2个中间件、Scrapy配置6个模块。经过实验,共爬取了10个物流资讯网站的85.85万个网页,爬取平均速度峰值达到22.3个/秒。 展开更多
关键词 scrapy 物流资讯 爬虫系统 架构设计 系统实现
在线阅读 下载PDF
基于Scrapy和casperjs的电子商务网站信息采集系统研究 被引量:5
17
作者 高荣 《数字技术与应用》 2015年第3期67-68,共2页
针对大数据时代用户对电子商务信息采集与分析的需求,设计并实现了一个高扩展性的基于Scrapy的电商网站信息采集系统,能解决异步数据加载带来的数据采集困难的问题,系统采用了casperjs、redis、graphite等框架和技术进一步增强了对电商... 针对大数据时代用户对电子商务信息采集与分析的需求,设计并实现了一个高扩展性的基于Scrapy的电商网站信息采集系统,能解决异步数据加载带来的数据采集困难的问题,系统采用了casperjs、redis、graphite等框架和技术进一步增强了对电商内容爬取的适应能力和可扩展性。系统能够工作在云计算环境下,具有非常高的应用价值。 展开更多
关键词 电子商务 scrapy casperjs 信息采集
在线阅读 下载PDF
基于Scrapy-Redis的分布式爬取当当网图书数据 被引量:4
18
作者 胡学军 李嘉诚 《软件工程》 2022年第10期8-11,共4页
单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究... 单机的网络爬虫爬取数据效率较低,而研究分布式网络爬虫能有效提高数据的爬取效率。文中选择使用上更为简单的Scrapy-Redis框架,设计一个架构模式为主从式的分布式网络爬虫系统,实现对当当网图书信息的爬取;并对布隆过滤器算法进行研究,分析影响其性能的参数,将算法集成到Scrapy-Redis的Scheduler的去重模块中。系统使用一台主机做Master,两台从机做Slave,最终运行1 小时后,抓取图书信息18,000余条。 展开更多
关键词 网络爬虫 scrapy框架 scrapy-Redis框架 布隆过滤器算法
在线阅读 下载PDF
基于Scrapy的房产信息爬取系统设计 被引量:1
19
作者 曾水新 黄日胜 《电脑编程技巧与维护》 2022年第12期26-28,共3页
房价评估系统的模型训练需要海量的数据集,基于Scrapy框架设计并实现了一个房产信息爬取系统,用于爬取网站的房产信息。系统先爬取列表页,获取详情页的URL并入库,然后批量爬取详情页,解析详情页里的房产信息。通过校验数据格式、补全缺... 房价评估系统的模型训练需要海量的数据集,基于Scrapy框架设计并实现了一个房产信息爬取系统,用于爬取网站的房产信息。系统先爬取列表页,获取详情页的URL并入库,然后批量爬取详情页,解析详情页里的房产信息。通过校验数据格式、补全缺失项、去除重复数据、检测异常数据等方式进行数据清洗,得到符合条件的房产数据,系统通过设置抓取频率以及改变User-Agent、IP等方式,降低服务器压力、防止拒绝访问。 展开更多
关键词 PYTHON语言 scrapy框架 网络爬虫 数据采集 房产信息
在线阅读 下载PDF
基于Scrapy爬虫框架的安居客租房数据爬取 被引量:4
20
作者 陈燕 《轻工科技》 2019年第9期74-75,共2页
近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得... 近年来,随着城镇化进程的加快,房价节节攀升,购房压力相应增大,租房成为满足居民居住需要的主要途径。互联网的发展给房屋租赁市场提供了新的交易途径,同时也带来了新的挑战。如何在较短的时间内,有效地获取租房用户所需的精准信息变得越来越重要。本文基于Scrapy框架设计安居客租房信息的爬取工具,实现对安居客网站下租房关键信息的自动爬取,过滤并存储租房房源信息,建立租房房源信息数据源,为后续的进一步分析数据提供基础。 展开更多
关键词 scrapy框架 租房数据 网络爬虫
在线阅读 下载PDF
上一页 1 2 9 下一页 到第
使用帮助 返回顶部