因为WebMagic提倡自己定制,所以项目的源码还是有必要看的。在http://webmagic.io上,你可以下载最新的webmagic-core-{version}-sources.jar和webmagic-extension-{version}-sources.jar,点击\即可。
2.3 第一个项目
在你的项目中添加了WebMagic的依赖之后,即可开始第一个爬虫的开发了!我们这里拿一个抓取Github信息的例子:
import us.codecraft.webmagic.Page; import us.codecraft.webmagic.Site; import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;
public class GithubRepoPageProcessor implements PageProcessor { private Site site = Site.me().setRetryTimes(3).setSleepTime(100); @Override
public void process(Page page) {
page.addTargetRequests(page.getHtml().links().regex(\ page.putField(\
page.getUrl().regex(\ page.putField(\page.getHtml().xpath(\public']/strong/a/text()\
if (page.getResultItems().get(\ //skip this page page.setSkip(true); }
page.putField(\ }
@Override
public Site getSite() { return site; }
public static void main(String[] args) { Spider.create(new
GithubRepoPageProcessor()).addUrl(\ } }
点击main方法,选择“运行”,你会发现爬虫已经可以正常工作了!
3.下载和编译源码
如果你对WebMagic的源码感兴趣,那么可以选择源码下载和编译的方式来使用WebMagic。“非常简单的二次开发”也是WebMagic的目标之一。
WebMagic是一个纯Java项目,如果你熟悉Maven,那么下载并编译源码是非常简单的。如果不熟悉Maven也没关系,这部分会介绍如何在Eclipse里导入这个项目。 3.1 下载源码
WebMagic目前有两个仓库:
? https://github.com/code4craft/webmagic github上的仓库保存最新版本,所有issue、pull request都在这里。大家觉得项目不错的话别忘了去给个star哦!
? http://git.oschina.net/flashsword20/webmagic 此仓库包含所有编译好的依赖包,只保存项目的稳定版本,最新版本仍在github上更新。oschina在国内比较稳定,主要作为镜像。 无论在哪个仓库,使用
git clone https://github.com/code4craft/webmagic.git 或者
git clone http://git.oschina.net/flashsword20/webmagic.git 即可下载最新代码。
如果你对git本身使用也不熟悉,建议看看@黄勇的 从 Git OSC 下载 Smart 源码 3.2 导入项目
Intellij Idea默认自带Maven支持,import项目时选择Maven项目即可。 3.2.1 使用m2e插件
使用Eclipse的用户,推荐安装m2e插件,安装地址:https://www.eclipse.org/m2e/download/[](https://www.eclipse.org/m2e/download/) 安装后,在File->Import中选择Maven->Existing Maven Projects即可导入项目。
导入后看到项目选择界面,点击finish即可。
3.2.2 使用Maven Eclipse插件
如果没有安装m2e插件,只要你安装了Maven,也是比较好办的。在项目根目录下使用命令:
mvn eclipse:eclipse
生成maven项目结构的eclipse配置文件,然后在File->Import中选择General->Existing Projects into Workspace即可导入项目。
百度搜索“77cn”或“免费范文网”即可找到本站免费阅读全部范文。收藏本站方便下次阅读,免费范文网,提供经典小说综合文库webmagic中文文档(2)在线全文阅读。
相关推荐: