77范文网 - 专业文章范例文档资料分享平台

webmagic中文文档(2)

来源:网络收集 时间:2019-01-27 下载这篇文档 手机版
说明:文章内容仅供预览,部分内容可能不全,需要完整文档或者需要复制内容,请下载word后使用。下载word有问题请添加微信号:或QQ: 处理(尽可能给您提供完整文档),感谢您的支持与谅解。点击这里给我发消息

因为WebMagic提倡自己定制,所以项目的源码还是有必要看的。在http://webmagic.io上,你可以下载最新的webmagic-core-{version}-sources.jar和webmagic-extension-{version}-sources.jar,点击\即可。

2.3 第一个项目

在你的项目中添加了WebMagic的依赖之后,即可开始第一个爬虫的开发了!我们这里拿一个抓取Github信息的例子:

import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider;

import us.codecraft.webmagic.processor.PageProcessor;

public class GithubRepoPageProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(100); @Override

public void process(Page page) {

page.addTargetRequests(page.getHtml().links().regex(\ page.putField(\

page.getUrl().regex(\ page.putField(\page.getHtml().xpath(\public']/strong/a/text()\

if (page.getResultItems().get(\ //skip this page page.setSkip(true); }

page.putField(\ }

@Override

public Site getSite() { return site; }

public static void main(String[] args) { Spider.create(new

GithubRepoPageProcessor()).addUrl(\ } }

点击main方法,选择“运行”,你会发现爬虫已经可以正常工作了!

3.下载和编译源码

如果你对WebMagic的源码感兴趣,那么可以选择源码下载和编译的方式来使用WebMagic。“非常简单的二次开发”也是WebMagic的目标之一。

WebMagic是一个纯Java项目,如果你熟悉Maven,那么下载并编译源码是非常简单的。如果不熟悉Maven也没关系,这部分会介绍如何在Eclipse里导入这个项目。 3.1 下载源码

WebMagic目前有两个仓库:

? https://github.com/code4craft/webmagic github上的仓库保存最新版本,所有issue、pull request都在这里。大家觉得项目不错的话别忘了去给个star哦!

? http://git.oschina.net/flashsword20/webmagic 此仓库包含所有编译好的依赖包,只保存项目的稳定版本,最新版本仍在github上更新。oschina在国内比较稳定,主要作为镜像。 无论在哪个仓库,使用

git clone https://github.com/code4craft/webmagic.git 或者

git clone http://git.oschina.net/flashsword20/webmagic.git 即可下载最新代码。

如果你对git本身使用也不熟悉,建议看看@黄勇的 从 Git OSC 下载 Smart 源码 3.2 导入项目

Intellij Idea默认自带Maven支持,import项目时选择Maven项目即可。 3.2.1 使用m2e插件

使用Eclipse的用户,推荐安装m2e插件,安装地址:https://www.eclipse.org/m2e/download/[](https://www.eclipse.org/m2e/download/) 安装后,在File->Import中选择Maven->Existing Maven Projects即可导入项目。

导入后看到项目选择界面,点击finish即可。

3.2.2 使用Maven Eclipse插件

如果没有安装m2e插件,只要你安装了Maven,也是比较好办的。在项目根目录下使用命令:

mvn eclipse:eclipse

生成maven项目结构的eclipse配置文件,然后在File->Import中选择General->Existing Projects into Workspace即可导入项目。

百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库webmagic中文文档(2)在线全文阅读。

webmagic中文文档(2).doc 将本文的Word文档下载到电脑,方便复制、编辑、收藏和打印 下载失败或者文档不完整,请联系客服人员解决!
本文链接:https://www.77cn.com.cn/wenku/zonghe/460351.html(转载请注明文章来源)
Copyright © 2008-2022 免费范文网 版权所有
声明 :本网站尊重并保护知识产权,根据《信息网络传播权保护条例》,如果我们转载的作品侵犯了您的权利,请在一个月内通知我们,我们会及时删除。
客服QQ: 邮箱:tiandhx2@hotmail.com
苏ICP备16052595号-18
× 注册会员免费下载(下载后可以自由复制和排版)
注册会员下载
全站内容免费自由复制
注册会员下载
全站内容免费自由复制
注:下载文档有可能“只有目录或者内容不全”等情况,请下载之前注意辨别,如果您已付费且无法下载或内容有问题,请联系我们协助你处理。
微信: QQ: