当前位置:首页 >> 学科竞赛 >>

Nutch-1.2+Hadoop-0.20.2集群的分布式爬取


Hadoop-0.20.2+ Nutch-1.2+Tomcat-7——分布式搜索配置 随着 nutch 的发展,各模块逐渐独立性增强,我从 2.1 到 1.6 装过来,也没有实现整个 完整的功能。今天装一下 nutch1.2,这应该是最后一个有 war 文件的稳定版本。 1. 准备工作 下载 apache-nutch-1.2-bin.zip、apache-tomcat-7.0.39.tar.gz、hadoop-0.20.2.tar.gz。 将下载的 hadoop-0.20.2.tar.gz 解压到/opt 文件夹下。 将下载的 apache-nutch-1.2-bin.zip 解压到/opt 文件夹下。 将下载的 apache-tomcat-7.0.39.tar.gz 解压到/opt 文件夹下。 2. 配置 hadoop-0.20.2 (1) 编辑 conf/hadoop-env.sh,最后添加 export JAVA_HOME=/opt/java-7-sun export HADOOP_HEAPSIZE=1000 export HADOOP_CLASSPATH=.:/opt/nutch-1.2/lib:/opt/hadoop-0. 20.2 export NUTCH_HOME=/opt/nutch-1.2/lib (2) 编辑/etc/profile,添加 #Hadoop export HADOOP_HOME=/opt/hadoop-0.20.2 export PATH=$PATH:$HADOOP_HOME/bin (3) 编辑 conf/core-site.xml <?xml version=1.0?> <?xml-stylesheet type=text/xsl href=configuration.xsl?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>fs.default.name</name> <value>hdfs://m2:9000</value> </property> <property> <name>hadoop.tmp.dir</name> <value>/opt/hadoop-0.20.2/tempdata/var</value> </property> <property> <name>hadoop.native.lib</name> <value>true</value> <description>Should native hadoop libraries, if present, be used.</description> </property> </configuration> (4) 编辑 conf/hdfs-site.xml <?xml version=1.0?> <?xml-stylesheet type=text/xsl href=configuration.xsl?> <!-- Put site-specific property overrides in this file. --> <configuration> <property> <name>dfs.name.dir</name> <value>/opt/hadoop-0.20.2/tempdata/name1,/opt/hadoop-1.0.4/tempdata /name2</

相关文章:
nutch1_3 +hadoop 分布式部署(亲测)
nutch1_3 +hadoop 分布式部署(亲测)_计算机软件及...8.native/lib 这是配置 nutch1.3 hadoop 集群最...hadoop-0.20.2.tar.gz. Unpack this archive, ...
基于Hadoop的Nutch分布式网络爬虫的研究12.5
暂无评价|0人阅读|0次下载 基于Hadoop的Nutch分布式网络爬虫的研究12.5_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提...
基于Hadoop的Nutch分布式网络爬虫的研究7_图文
暂无评价|0人阅读|0次下载 基于Hadoop的Nutch分布式网络爬虫的研究7_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出了...
基于Hadoop的Nutch分布式网络爬虫的研究5_图文
暂无评价|0人阅读|0次下载基于Hadoop的Nutch分布式网络爬虫的研究5_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出了改...
基于Hadoop的Nutch分布式网络爬虫的研究5.5_图文
暂无评价|0人阅读|0次下载基于Hadoop的Nutch分布式网络爬虫的研究5.5_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出...
基于Hadoop的Nutch分布式网络爬虫的研究7.1_图文
暂无评价|0人阅读|0次下载基于Hadoop的Nutch分布式网络爬虫的研究7.1_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出...
基于Hadoop的Nutch分布式网络爬虫的研究9_图文
暂无评价|0人阅读|0次下载基于Hadoop的Nutch分布式网络爬虫的研究9_互联网_IT/...Hadoop 分布式集群环境,以 MapReduce 分布式 计算模型以达到高效率的分布式爬取,...
基于Hadoop的Nutch分布式网络爬虫的研究6_图文
暂无评价|0人阅读|0次下载 基于Hadoop的Nutch分布式网络爬虫的研究6_互联网_IT/计算机_专业资料。针对Nutch分布式主题爬虫的爬取效率和爬取的准确度问题,本文提出了...
基于Hadoop的Nutch分布式网络爬虫的研究3_图文
暂无评价|0人阅读|0次下载基于Hadoop的Nutch分布式网络爬虫的研究3_互联网_IT/...并搭建 Hadoop 分布式集群,同时引入 HBase 分布式数据库达到高效率地存储爬取的...
Nutch-1.0分布式安装手册
Nutch-1.0 分布式安装手册 1 、安装准备 1.1 1.2 1.3 1.4 从 http://...《nutch-1.0 的分布式查询部署》 ,地址如 下 http://bbs.hadoopor.com/...
更多相关标签: