Windows下安装spark+Hadoop

网友投稿 1159 2022-09-15

Windows下安装spark+Hadoop

Windows下安装spark+Hadoop

Spark作为一个基于内存的开源计算框架,在这个大数据时代背景下,受到越来越多的开发者的喜爱,相对于Hadoop,Spark拥有对大量数据更快的处理速度,并且易于使用(支持多种开发语言)。比Hadoop具有更多的优点,怎能不让人想去尝试一下Spark的魅力呢? 了解Spark的都知道Spark是用Scala写的,那么要想在windows下来运行Spark少不了的就要先安装Scala。首先的在一个大前提下就是我们本机已经安装并配置好JDk环境变量了。那么,我们就可以安装Scala了

一、安装Scala

-:​​​1.6.2之间的各个版本。这种说法不知道准不准确,但是还是注意一下比较好。

Scala安装好之后呢,

在环境变量PATH里面配置scala安装路径。下面就打开cmd输入Scala看下安装后控制台的输出效果。

如果出现一下信息,那么就证明Scala已经安装成功了。

需要注意的是:如果在控制台输入scala之后输出没有出现版本信息,那么就需要你手动替换掉安装Scala时自动配置的变量。

既然Scala已经安装成功了, 那么我们就可以继续安装我们的主角Spark了

安装完成之后可能会出现错误:

Exception in thread "main" java.lang.UnsupportedClassVersionError: scala/tools/n sc/MainGenericRunne,

这个是由于jdk版本过低导致的,需要将jdk版本升至1.8以上。

二、安装Spark

同样的我会附上Spark-:​​​(解压目录)

PATH:E:\hadoop-2.6.4\bin

上诉内容都准备好之后再次重新打开控制台输入spark-shell如果还有以上错误日志,那么请找到你的hadoop\bin目录找下里面有没有winutils.exe文件,如果没有的话,我们需要去-。

winutils.exe-​​​里面,确保该目录中有winutils.exe文件。

那么下面就需要在控制台输入一下命令来修改权限

E:\hadoop-2.6.4\bin\winutils.exe chmod 777 /tmp/hive

1

注意该命令需要根据你实际的hadoop所在目录。

好了,经过这么多的准备工作,我想我们的spark到此已经安装完毕了。下面我们重新打开一个控制台窗口输入spark-shell看下结果吧。

如果你看到上诉两图所圈住的日志信息,那么,恭喜您,spark已经安装成功了!

​配置spark和Hadoop环境​

打开pycharm,导入已有的或者新建工程。

2.创建新的run configurition。

如右上角所示,选择edit configurition。

选择 File->setting->你的project->project structure

右上角Add content root添加:py4j-some-version.zip和pyspark.zip的路径(这两个文件都在Spark中的python文件夹下,自己找一下)

5.保存,ok

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:C# 数据操作系列 - 4. 自己实现一个ORM(cctv5)
下一篇:2019-2-17-如何在-Windows-10-中移除-Internet-Explorer-浏览器
相关文章

 发表评论

暂时没有评论,来抢沙发吧~