当前位置:首页 >> IT/计算机 >>

Nutch1.4 windows下eclipse配置图文详解


网络上关于 nutch1.4 的配置和使用很少, 官方网站提供的方法我研究了半天特别麻烦, 而且 发现弄完后有的依赖包找不到, 我决定放弃使用。 将这两天关于 nutch1.4 配置的另一种方法 整理一下 仅供参考!如有其它问题欢迎加 1277140354 一起交流学习! 1、 配 置 安 装 JDK 省 略 。 我 用 的 是 JDK1.6 , JDK6 官 方 下 载 地 址:http://www.java.net/download/jdk6/6u10/promoted/b32/binaries/jdk-6u10-rc2-bin-b32-win dows-i586-p-12_sep_2008.exe JDK1.5 ANT 编译的时候会失败 2、 下载 eclipse 省略 地址:http://www.eclipse.org/downloads/

3、 Ant 安装 使用最新的 Apache Ant 1.8.3 Apache Ant 1.8.3 is now available for
download as source or binary from http://ant.apache.org/bindownload.cgi.

我个人下载的 解压后的目录为 E:\Mysdk\apache-ant-1.8.3 配置 Ant 环境变量 ANT_HOME 、 PATH, 在系统变量中, 点击新建, 变量名: ANT_HOME, 变量值:

将%ANT_HOME%\bin; %ANT_HOME%\lib 添加到环境变量的 path 中。

Cmd 中测试 ant 指令结果如下说明 ANT 安装成功可以进行下一步、

4 、安装 cygwin 所以报错从官方网站下载最新的 cygwin 官网地址 http://www.cygwin.com/ 下载地址 setup.exe
下载后安装

下一步 有错误提示直接忽略

不用选择 默认即可点击下一步

配置一下环境变量 添加 CYGWIN_HOME

中添加%CYGWIN_HOME%\bin 在 path 中添加

5、安装 nutch1.4 官方网站 http://nutch.apache.org/,下载地址 http://apache.etoak.com/nutch/ 我选择的是 apache-nutch-1.4-bin.zip 解压后目录为:E:\Mysdk\apache-nutch-1.4-bin

Cmd 到 E:\Mysdk\apache-nutch-1.4-bin 执行 ant

然后就耐心等待一下吧!

6 导入 eclipse 中新建工程

点击下一步找到 conf 文件夹 选择 Add folder ‘conf’to buid path 我将 default output folder 设置为 Nutch/conf

点击 finish 如果一切正常将没有错误 7 修改 nutch1.4 配置信息 (1) 修改 conf 下 nutch-default 文件将 plugin.folders 的值由 plugins 修改为./src/plugin

(2) 按照官方网站说明在工程目录下建立 urls 目录在目录下建立 txt 文件,文件名字

随意填写一个网址作为爬虫的目标网址

在conf下配置nutch-site.xml文件<configuration>中加入

<property> <name>http.agent.name</name> <value>My Nutch Spider</value> </property>

(3) 修改regex-urlfilter.txt将

# accept anything else +.
处替换为

+^http://([a-z0-9]*\.)*163.com 表示只抓取www.163.com站内的内容

?

8 、经过以上配置基本上完成要求。下面看看运行的配置,在 Package Explorer 中右 击工程选择 Run

as runcon figurations 在 java application 下新建

?

设置 main class 为 org.apache.nutch.crawl.Crawl

?

在 Arguments 选项卡下 Program

Arguments 中填写

urls -dir crawl -depth 3 -topN 50
?

在 VM arguments 中填写 -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log 单击 run 即可看到运行效果

我这在笔记本上运行出现了错误

在 VM arguments 中加上 -Xms800m -Xmx800m

再次运行

。。。。。。。



相关文章:
Windows7下webDriver+eclipse环境配置教程
Windows7下webDriver+eclipse环境配置教程_计算机软件及应用_IT/计算机_专业资料。2015/8/3 1. 开发环境需要安装: 1、JDK1.8 2、Eclipse:Version: Kepler Service...
最新版Eclipse IDE for C_C++以及WinGW的安装与配置图...
最新版Eclipse IDE for C_C++以及WinGW的安装配置图文详解_计算机软件及应用_...系统环境:windows7_x64 JDK 版本:jdk-8u20-windows-x64 Eclipse 版本:...
Eclipse For C++开发配置图文版
Eclipse For C++开发配置图文版_计算机软件及应用_IT/计算机_专业资料。Windows 下用Eclipse开发 C 或者C++ 。完美配置 Windows 下 Eclipse for C/C++ 配置与开发...
Windows环境下Eclipse C++开发平台搭建及helloWorld演...
Windows环境下Eclipse C++开发平台搭建及helloWorld演示教程_计算机软件及应用_IT/计算机_专业资料。完整截图演示window XP系统下Eclipse进行C/C++开发的平台搭建及最后的...
Nutch安装向导
win7下cygwin + Eclipse... 7页 免费 安装Nutch步骤 暂无评价 4页 免费 安装...nutch 1.4windows下安... 3页 免费 nutch配置过程 8页 免费©...
Windows环境下基于Eclipse的MPI编程环境配置
Windows环境下基于Eclipse的MPI编程环境配置_计算机软件...Astyle:astyle_1.20 3.2 详细配置虽然 MPICH 同时...Nutch1.4 windows下ecli... 12页 3下载券 windows...
Apache Nutch 1.7 在windows和Linux下的安装
在windows和Linux下的安装,有详细的步骤和示意图,已...Nutch 在 Windows 下搭建过程 1 准备工作我是在...nutch 1.4windows下安... 3页 免费 Nutch在windows...
Eclipse 安装教程_图文
Eclipse 安装教程_计算机软件及应用_IT/计算机_专业资料。Eclipse 安装教程 1.环境配置 Win7 32 位系统, jdk-8u101-windows-i586,eclipse-jee-mars-2-win32 2...
最新Eclipse JS插件安装及配置教程_图文
最新Eclipse JS插件安装配置教程_计算机软件及应用_IT/计算机_专业资料。在...基本步骤如下: 1)【Windows】→【Preferences】 →【Spket】 2)【Spket】→【...
Windows 下配置 Eclipse 连接 Hadoop 开发环境
Windows 下配置 Eclipse 连接 Hadoop 开发环境 学习本篇之前,首先需要搭建 Hadoop 集群环境,具体请参见:Hadoop 三台主机 集群搭建 详解 在上一篇 Hadoop 三台主机...
更多相关标签: