当前位置:首页 >> 学科竞赛 >>

Nutch-1.2+Hadoop-0.20.2集群的分布式爬取


Hadoop-0.20.2+ Nutch-1.2+Tomcat-7——分布式搜索配置 随着 nutch 的发展,各模块逐渐独立性增强,我从 2.1 到 1.6 装过来,也没有实现整个 完整的功能。今天装一下 nutch1.2,这应该是最后一个有 war 文件的稳定版本。 1. 准备工作 下载 apache-nutch-1.2-bin.zip、apache-tomcat-7.0

.39.tar.gz、hadoop-0.20.2.tar.gz。 将下载的 hadoop-0.20.2.tar.gz 解压到/opt 文件夹下。 将下载的 apache-nutch-1.2-bin.zip 解压到/opt 文件夹下。 将下载的 apache-tomcat-7.0.39.tar.gz 解压到/opt 文件夹下。 2. 配置 hadoop-0.20.2 (1) 编辑 conf/hadoop-env.sh,最后添加 export JAVA_HOME=/opt/java-7-sun export HADOOP_HEAPSIZE=1000 export HADOOP_CLASSPATH=.:/opt/nutch-1.2/lib:/opt/hadoop-0. 20.2 export NUTCH_HOME=/opt/nutch-1.2/lib (2) 编辑/etc/profile,添加 #Hadoop export HADOOP_HOME=/opt/hadoop-0.20.2 export PATH=$PATH:$HADOOP_HOME/bin (3) 编辑 conf/core-site.xml <?xml version=1.0?> <?xml-stylesheet type=text/xsl href=configuration.xsl?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://m2:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-0.20.2/tempdata/var</value> </property> <property> <name>hadoop.native.lib</name> <value>true</value> <description>Should native hadoop libraries, if present, be used.</description> </property> </configuration> (4) 编辑 conf/hdfs-site.xml <?xml version=1.0?> <?xml-stylesheet type=text/xsl href=configuration.xsl?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.name.dir</name> <value>/opt/hadoop-0.20.2/tempdata/name1,/opt/hadoop-1.0.4/tempdata /name2</

相关文章:
nutch1_3 +hadoop 分布式部署(亲测)
nutch1_3 +hadoop 分布式部署(亲测)_计算机软件及...8.native/lib 这是配置 nutch1.3 hadoop 集群最...hadoop-0.20.2.tar.gz. Unpack this archive, ...
Linux下Nutch1.1分布式配置和使用
Linux 下 Nutch1.1 分布式配置和使用第 [1] 页目 介绍. 2 0 集群网络环境...附 Nutch-1.1 介绍 nutch-1.1 使用的是 hadoop-0.20.2,目前还未发布,但...
hadoop集群环境的搭建和安装(最终)
hadoop 集群环境的搭建和安装 分组 、概念 Hadoop 是分布式系统基础架构,...3.3 安装 hadoop 3.3.1、下载 hadoop 3.3.2、解压 hadoop-0.20.203.0...
RedHat安装Hadoop(1.2.1)集群
RedHat安装Hadoop(1.2.1)集群_计算机软件及应用_IT/计算机_专业资料。RedHat ...Nutch-1.2+Hadoop-0.20... 暂无评价 9页 ¥1.00 redHat linux下安装...
Hadoop2.7完全分布式搭建文档_图文
本文主要讲述如何搭建hadoop 完全分布式集群环境...hadoop 路径 2、让主结点(master)能通过 SSH 免...jdk1.7.0_71 所以讲 hadoop-env.sh、mapred-...
nutch网页爬取总结
0_23 /usr/java/ 配置用户环境变量[2] 这个比较重要,最开始 nutch 多次爬取...配置文件: hadoop-default.xml、hadoop-site.xml、nutch-default.xml、nutch-...
Hadoop集群服务器
end 20. Emit output.collect(null, Text(outStr)...Hadoop1.2.1、JDK 1.7.0_21、Eclipse-java-...Hadoop MapReduce 分布式集群 master 需要 SSH 启动...
hadoop1.2.1集群配置简明手册
暂无评价|0人阅读|0次下载|举报文档hadoop1.2.1集群配置简明手册_计算机软件及应用_IT/计算机_专业资料。hadoop1.2.1集群配置说明文档,并附加了测试代码,供集群...
nutch分布式搭建文档(测试成功)
nutchhadoop环境下搭建Nutch 环境分布式搭建 、搭建集群 hadoop. 选取 2 台...nutch1.6/runtime/local/conf/ cp ~/programs/hadoop-1.0.3/conf/hadoop-env...
hadoop1.2.1与habase分布式搭建
Hadoop 与 habase 分布式搭建一、搭建环境本 次搭建环境: CentOS6.5 64 位 +JDK1.7+ hadoop-1.2.1+ zookeeper-3.4.5+ hbase-0.94.20+hive-0.12.0+...
更多相关标签:
nutch hadoop爬取网页 | hadoop分布式爬取数据 | hadoop分布式集群搭建 | hadoop分布式集群 | hadoop分布式计算集群 | nutch爬取动态网页 | nutch 爬取网页文本 | nutch爬取新浪 |