当前位置:首页 >> 学科竞赛 >>

Nutch-1.2+Hadoop-0.20.2集群的分布式爬取


Hadoop-0.20.2+ Nutch-1.2+Tomcat-7——分布式搜索配置 随着 nutch 的发展,各模块逐渐独立性增强,我从 2.1 到 1.6 装过来,也没有实现整个 完整的功能。今天装一下 nutch1.2,这应该是最后一个有 war 文件的稳定版本。 1. 准备工作 下载 apache-nutch-1.2-bin.zip、apache-tomcat-7.0

.39.tar.gz、hadoop-0.20.2.tar.gz。 将下载的 hadoop-0.20.2.tar.gz 解压到/opt 文件夹下。 将下载的 apache-nutch-1.2-bin.zip 解压到/opt 文件夹下。 将下载的 apache-tomcat-7.0.39.tar.gz 解压到/opt 文件夹下。 2. 配置 hadoop-0.20.2 (1) 编辑 conf/hadoop-env.sh,最后添加 export JAVA_HOME=/opt/java-7-sun export HADOOP_HEAPSIZE=1000 export HADOOP_CLASSPATH=.:/opt/nutch-1.2/lib:/opt/hadoop-0. 20.2 export NUTCH_HOME=/opt/nutch-1.2/lib (2) 编辑/etc/profile,添加 #Hadoop export HADOOP_HOME=/opt/hadoop-0.20.2 export PATH=$PATH:$HADOOP_HOME/bin (3) 编辑 conf/core-site.xml <?xml version=1.0?> <?xml-stylesheet type=text/xsl href=configuration.xsl?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://m2:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-0.20.2/tempdata/var</value> </property> <property> <name>hadoop.native.lib</name> <value>true</value> <description>Should native hadoop libraries, if present, be used.</description> </property> </configuration> (4) 编辑 conf/hdfs-site.xml <?xml version=1.0?> <?xml-stylesheet type=text/xsl href=configuration.xsl?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.name.dir</name> <value>/opt/hadoop-0.20.2/tempdata/name1,/opt/hadoop-1.0.4/tempdata /name2</

相关文章:
nutch1_3 +hadoop 分布式部署(亲测)
nutch1_3 +hadoop 分布式部署(亲测)_计算机软件及...8.native/lib 这是配置 nutch1.3 hadoop 集群最...hadoop-0.20.2.tar.gz. Unpack this archive, ...
nutch分布式搭建文档(测试成功)
nutchhadoop环境下搭建Nutch 环境分布式搭建 、搭建集群 hadoop. 选取 2 台...nutch1.6/runtime/local/conf/ cp ~/programs/hadoop-1.0.3/conf/hadoop-env...
Hadoop集群搭建完全分布式
Hadoop集群搭建完全分布式_计算机软件及应用_IT/计算机_专业资料。集群规划 hadoop...Nutch-1.2+Hadoop-0.20... 暂无评价 9页 ¥1.00 基于Hadoop集群的分布式...
hadoop1.2.1集群配置简明手册
暂无评价|0人阅读|0次下载|举报文档hadoop1.2.1集群配置简明手册_计算机软件及应用_IT/计算机_专业资料。hadoop1.2.1集群配置说明文档,并附加了测试代码,供集群...
Hadoop分布式集群搭建
Hadoop分布式集群搭建_计算机软件及应用_IT/计算机_专业资料。台msater和台...13 0 、系统环境与节点规划序号 1 2 3 序号 1 2 Hadoop 版本 JAVA 环境...
nutch网页爬取总结
0_23 /usr/java/ 配置用户环境变量[2] 这个比较重要,最开始 nutch 多次爬取...配置文件: hadoop-default.xml、hadoop-site.xml、nutch-default.xml、nutch-...
hadoop集群环境的搭建和安装(最终)
hadoop 集群环境的搭建和安装 分组 、概念 Hadoop 是分布式系统基础架构,...3.3 安装 hadoop 3.3.1、下载 hadoop 3.3.2、解压 hadoop-0.20.203.0...
Hadoop2.7完全分布式搭建文档_图文
本文主要讲述如何搭建hadoop 完全分布式集群环境...hadoop 路径 2、让主结点(master)能通过 SSH 免...jdk1.7.0_71 所以讲 hadoop-env.sh、mapred-...
基于Hadoop的Nutch分布式网络爬虫的研究10
暂无评价|0人阅读|0次下载 基于Hadoop的Nutch分布式网络爬虫的研究10_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出了...
基于Hadoop的Nutch分布式网络爬虫的研究6
暂无评价|0人阅读|0次下载 基于Hadoop的Nutch分布式网络爬虫的研究6_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出了...
更多相关标签:
hadoop分布式集群搭建 | hadoop分布式集群 | nutch 爬取网页文本 | nutch爬取动态网页 | nutch 增量 爬取 | nutch2 爬取图片 | nutch爬取数据 | nutch hadoop |