来源:《网络安全技术与应用》2017年第10期  作者:曾凯;
选择字号

医药科研信息网络抓取方法研究

收藏本文  分享

本文介绍了医药科研信息抓取系统中用到的数据抓取方法。为了高效地抓取网页内容,该方法采用带偏好的宽度优先遍历方式访问网页,将待访问的网址存放于高效的内存数据库BerKeley DB中,用布隆过滤器过滤已经抓取过的网址。通过Delphi xe7开发系统提供的WebBrowser控件和微软公司的MSHTML组件获取网页文本,将待提取数据文本划分成数据行,将数据行及相应的链接存入到对象数组中,用关键字在对象数组中匹配搜索时可实现精确和模糊搜索两种方式。并利用计算机的多线程技术提高网页抓取速度,利用多核优势带来的并行编程技术提高对网页内容中关键字的搜索速度。以万方医学网和中国知网为实际案例,阐述了数据抓取过程及结果,并提供了简化的Delphi xe7示例程序,结果表明,该方法能有效方便地应用于医药科研信息的采集。(本文共计4页)......[继续阅读本文]

下载阅读本文订阅本刊

图书推荐

    相关文章推荐

    看看这些杂志对你有没有帮助...

    更多杂志>>