当前位置:首页 >> 学科竞赛 >>

Nutch-1.2+Hadoop-0.20.2集群的分布式爬取


Hadoop-0.20.2+ Nutch-1.2+Tomcat-7——分布式搜索配置 随着 nutch 的发展,各模块逐渐独立性增强,我从 2.1 到 1.6 装过来,也没有实现整个 完整的功能。今天装一下 nutch1.2,这应该是最后一个有 war 文件的稳定版本。 1. 准备工作 下载 apache-nutch-1.2-bin.zip、apache-tomcat-7.0

.39.tar.gz、hadoop-0.20.2.tar.gz。 将下载的 hadoop-0.20.2.tar.gz 解压到/opt 文件夹下。 将下载的 apache-nutch-1.2-bin.zip 解压到/opt 文件夹下。 将下载的 apache-tomcat-7.0.39.tar.gz 解压到/opt 文件夹下。 2. 配置 hadoop-0.20.2 (1) 编辑 conf/hadoop-env.sh,最后添加 export JAVA_HOME=/opt/java-7-sun export HADOOP_HEAPSIZE=1000 export HADOOP_CLASSPATH=.:/opt/nutch-1.2/lib:/opt/hadoop-0. 20.2 export NUTCH_HOME=/opt/nutch-1.2/lib (2) 编辑/etc/profile,添加 #Hadoop export HADOOP_HOME=/opt/hadoop-0.20.2 export PATH=$PATH:$HADOOP_HOME/bin (3) 编辑 conf/core-site.xml <?xml version=1.0?> <?xml-stylesheet type=text/xsl href=configuration.xsl?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://m2:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-0.20.2/tempdata/var</value> </property> <property> <name>hadoop.native.lib</name> <value>true</value> <description>Should native hadoop libraries, if present, be used.</description> </property> </configuration> (4) 编辑 conf/hdfs-site.xml <?xml version=1.0?> <?xml-stylesheet type=text/xsl href=configuration.xsl?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.name.dir</name> <value>/opt/hadoop-0.20.2/tempdata/name1,/opt/hadoop-1.0.4/tempdata /name2</

相关文章:
Nutch-1.2+Hadoop-0.20.2集群的分布式爬取
Nutch-1.2+Hadoop-0.20.2集群的分布式爬取_学科竞赛_高中教育_教育专区。acm竞赛题, 解答, 云计算安装教程 , 教学模板 , 课件 ,教材acm竞赛题,解答,云计算...
Nutch-1.2+hadoop-0.20.2+Tomcat-7.0.42集群分布式的参考资料
Nutch-1.2+hadoop-0.20.2+Tomcat-7.0.42集群分布式的参考资料_计算机软件及应用_IT/计算机_专业资料。Nutch-1.2+hadoop-0.20.2+Tomcat-7.0.42集群分布式...
nutch分布式搭建文档(测试成功)
nutchhadoop环境下搭建Nutch 环境分布式搭建 、搭建集群 hadoop. 选取 2 台...nutch1.6/runtime/local/conf/ cp ~/programs/hadoop-1.0.3/conf/hadoop-env...
基于Hadoop的分布式爬虫及其实
基于Hadoop的分布式爬虫及其实_计算机硬件及网络_IT/...analyzestheProt otyPeofdistributed searchengineNutch....一,..??~...??11 2.2.1HAD0oP 分布式文件...
hadoop 1.2.0 版本的安装步骤
Nutch-1.2+hadoop-0.20... 3页 4下载券 Hadoop-1.0.0集群安装 9页 免费 hadoop 1.2.1 api 最新c... 2页 1下载券 Hadoop-0.20.2详细安装及......
nutch1_3 +hadoop 分布式部署(亲测)
nutch1_3 +hadoop 分布式部署(亲测)_计算机软件及...8.native/lib 这是配置 nutch1.3 hadoop 集群最...hadoop-0.20.2.tar.gz. Unpack this archive, ...
基于Hadoop的Nutch分布式网络爬虫的研究5.5
暂无评价|0人阅读|0次下载 基于Hadoop的Nutch分布式网络爬虫的研究5.5_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出...
hadoop1.2.1集群配置简明手册
暂无评价|0人阅读|0次下载|举报文档hadoop1.2.1集群配置简明手册_计算机软件及应用_IT/计算机_专业资料。hadoop1.2.1集群配置说明文档,并附加了测试代码,供集群...
Hadoop 2.6.0分布式部署参考手册
Hadoop 2.6.0分布式部署参考手册_计算机软件及应用_IT/计算机_专业资料。Hadoop...hadoop 用户 useradd hadoop 用户“hadoop”即为 Hadoop 集群的安装和使用用户。...
hadoop2.2.0单机伪分布式实践
hadoop2.2.0单机伪分布式实践_计算机软件及应用_IT/计算机_专业资料。详细总结了...(1)fs.defaultFS属性配置的是hadoop集群的访问地址,是HDFS-Master主机对外的地址...
更多相关标签:
hadoop分布式集群搭建 | hadoop分布式集群 | nutch 爬取网页文本 | nutch爬取动态网页 | nutch 爬取时间记录 | nutch爬取新浪 | nutch hadoop | nutch2.3 hadoop2.6 |