SparkSQL使用快速入门-FinClip官网

SparkSQL使用快速入门

网友投稿 616 2022-12-20

SparkSQL使用快速入门

目录一、SparkSQL的进化之路二、认识SparkSQL2.1　什么是SparkSQL?2.2　SparkSQL的作用2.3　运行原理2.4　特点2.5　SparkSession2.6　DataFrames三、RDD转换成为DataFrame3.1通过case class创建DataFrames（反射）3.2通过structType创建DataFrames（编程接口）3.3通过 json 文件创建DataFrames四、DataFrame的read和save和savemode4.1　数据的读取4.2　数据的保存4.3　数据的保存模式五、数据源5.1　数据源只json5.2　数据源之parquet5.3　数据源之Hive六、SparkSQL 的元数据1.1元数据的状态2.2Spark-SQL脚本

一、SparkSQL的进化之路

1.0以前： Shark

1.1.x开始：SparkSQL(只是测试性的) SQL

1.3.x: SparkSQL(正式版本)+Dataframe

1.5.x: SparkSQL 钨丝计划

1.6.x： SparkSQL+DataFrame+DataSet(测试版本)

2.x:

SparkSQL+DataFrame+DataSet(正式版本)

SparkSQL:还有其他的优化

StructuredStreaming(DataSet)

Spark on Hive和Hive on Spark

Spark on Hive：Hive只作为储存角色，Spark负责sql解析优化，执行。

Hive on Spark：Hive即作为存储又负责sql的解析优化，Spark负责执行。

二、认识SparkSQL

2.1　什么是SparkSQL?

spark SQL是spark的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象就是DataFrame。

2.2　SparkSQL的作用

提供一个编程抽象（DataFrame）并且作为分布式 SQL查询引擎

DataFrame：它可以根据很多源进行构建，包括：结构化的数据文件，hive中的表，外部的关系型数据库，以及RDD

2.3　运行原理

将Spark SQL转化为RDD，然后提交到集群执行

2.4　特点

（1）容易整合

（2）统一的数据访问方式

（3）兼容 Hive

（4）标准的数据连接

2.5　SparkSession

SparkSession是Spark 2.0引如的新概念。SparkSession为用户提供了统一的切入点，来让用户学习spark的各项功能。

在spark的早期版本中，SparkContext是spark的主要切入点，由于RDD是主要的API，我们通过sparkcontext来创建和操作RDD。对于每个其他的API，我们需要使用不同的context。例如，对于Streming，我们需要使用StreamingContext；对于sql，使用sqlContext；对于Hive，使用hiveContext。但是随着DataSet和DataFrame的API逐渐成为标准的API，就需要为他们建立接入点。所以在spark2.0中，引入SparkSession作为DataSet和DataFrame API的切入点，SparkSession封装了SparkConf、SparkContext和SQLContext。为了向后兼容，SQLContext和HiveContext也被保存下来。

　　SparkSession实质上是SQLContext和HiveContext的组合（未来可能还会加上StreamingContext），所以在SQLContext和HiveContext上可用的API在SparkSession上同样是可以使用的。SparkSession内部封装了sparkContext，所以计算实际上是由sparkContext完成的。

特点：

---- 为用户提供一个统一的切入点使用Spark 各项功能

---- 允许用户通过它调用 DataFrame 和 Dataset 相关 API 来编写程序

nbsp; ---- 减少了用户需要了解的一些概念，可以很容易的与 Spark 进行交互

---- 与 Spark 交互之时不需要显示的创建 SparkConf, SparkContext 以及 SQlContext，这些对象已经封闭在 SparkSession 中

2.6　DataFrames

在Spark中，DataFrame是一种以RDD为基础的分布式数据集，类似于传统数据库中的二维表格。DataFrame与RDD的主要区别在于，前者带有schema元信息，即DataFrame所表示的二维表数据集的每一列都带有名称和类型。这使得Spark SQL得以洞察更多的结构信息，从而对藏于DataFrame背后的数据源以及作用于DataFrame之上的变换进行了针对性的优化，最终达到大幅提升运行时效率的目标。反观RDD，由于无从得知所存数据元素的具体内部结构，Spark Core只能在stage层面进行简单、通用的流水线优化。

三、RDD转换成为DataFrame

使用spark1.x版本的方式

测试数据目录：spark/examples/src/main/resources（spark的安装目录里面）

people.txt

3.1通过case class创建DataFrames（反射）

//定义case class，相当于表结构

case class People(var name:String,var age:Int)

object TestDataFrame1 {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("RDDToDataFrame").setMaster("local")

val sc = new SparkContext(conf)

val context = new SQLContext(sc)

// 将本地的数据读入 RDD，并将 RDD 与 case class 关联

val peopleRDD = sc.textFile("E:\\666\\people.txt")

.map(line => People(line.split(",")(0), line.split(",")(1).trim.toInt))

import context.implicits._

// 将RDD 转换成 DataFrames

val df = peopleRDD.toDF

//将DataFrames创建成一个临时的视图

df.createOrReplaceTempView("people")

//使用SQL语句进行查询

context.sql("select * from people").show()

}

运行结果

3.2通过structType创建DataFrames（编程接口）

object TestDataFrame2 {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("TestDataFrame2").setMaster("local")

val sc = new SparkContext(conf)

val sqlPlIyHBContext = new SQLContext(sc)

val fileRDD = sc.textFile("E:\\666\\people.txt")

// 将 RDD 数据映射成 Row，需要 import org.apache.spark.sql.Row

val rowRDD: RDD[Row] = fileRDD.map(line => {

val fields = line.split(",")

Row(fields(0), fields(1).trim.toInt)

})

// 创建 StructType 来定义结构

val structType: StructType = StructType(

//字段名，字段类型，是否可以为空

StructField("name", StringType, true) ::

StructField("age", IntegerType, true) :: Nil

)

/**

* rows: java.util.List[Row],

* schema: StructType

* */

val df: DataFrame = sqlContext.createDataFrame(rowRDD,structType)

df.createOrReplaceTempView("people")

sqlContext.sql("select * from people").show()

}

运行结果

3.3通过 json 文件创建DataFrames

object TestDataFrame3 {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("TestDataFrame2").setMaster("local")

val sc = new SparkContext(conf)

val sqlContext = new SQLContext(sc)

val df: DataFrame = sqlContext.read.json("E:\\666\\people.json")

df.createOrReplaceTempView("people")

sqlContext.sql("select * from people").show()

}

四、DataFrame的read和save和savemode

4.1　数据的读取

object TestRead {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("TestDataFrame2").setMaster("local")

val sc = new SparkContext(conf)

val sqlContext = new SQLContext(sc)

//方式一

val df1 = sqlContext.read.json("E:\\666\\people.json")

val df2 = sqlContext.read.parquet("E:\\666\\users.parquet")

//方式二

val df3 = sqlContext.read.format("json").load("E:\\666\\people.json")

val df4 = sqlContext.read.format("parquet").load("E:\\666\\users.parquet")

//方式三，默认是parquet格式

val df5 = sqlContext.load("E:\\666\\users.parquet")

}

4.2　数据的保存

object TestSave {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("TestDataFrame2").setMaster("local")

val sc = new SparkContext(conf)

val sqlContext = new SQLContext(sc)

val df1 = sqlContext.read.json("E:\\666\\people.json")

//方式一

df1.write.json("E:\\111")

df1.write.parquet("E:\\222")

//方式二

df1.write.format("json").save("E:\\333")

df1.write.format("parquet").save("E:\\444")

//方式三

df1.write.save("E:\\555")

}

4.3　数据的保存模式

使用mode

df1.write.format("parquet").mode(SaveMode.Ignore).save("E:\\444")

五、数据源

5.1　数据源只json

参考4.1

5.2　数据源之parquet

参考4.1

5.3　数据源之mysql

object TestMysql {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setAppName("TestMysql").setMaster("local")

val sc = new SparkContext(conf)

val sqlContext = new SQLContext(sc)

val url = "jdbc:mysql://192.168.123.102:3306/hivedb"

val table = "dbs"

val properties = new Properties()

properties.setProperty("user","root")

properties.setProperty("password","root")

//需要传入Mysql的URL、表明、properties（连接数据库的用户名密码）

val df = sqlContext.read.jdbc(url,table,properties)

df.createOrReplaceTempView("dbs")

sqlContext.sql("select * from dbs").show()

}

运行结果

5.3　数据源之Hive

（1）准备工作

在pom.xml文件中添加依赖

org.apache.spark

spark-hive_2.11

2.3.0

开发环境则把resource文件夹下添加hive-site.xml文件，集群环境把hive的配置文件要发到$SPARK_HOME/conf目录下

javax.jdo.option.ConnectionURL

jdbc:mysql://localhost:3306/hivedb?createDatabaseIfNotExist=true

JDBC connect string for a JDBC metastore

javax.jdo.option.ConnectionDriverName

com.mysql.jdbc.Driver

Driver class name for a JDBC metastore

javax.jdo.option.ConnectionUserName

root

username to use against metastore database

javax.jdo.option.ConnectionPassword

root

password to use against metastore database

hive.metastore.warehouse.dir

/hive/warehouse

hive default warehouse, if nessecory, change it

（2）测试代码

object TestHive {

def main(args: Array[String]): Unit = {

val conf = new SparkConf().setMaster("local").setAppName(this.getClass.getSimpleName)

val sc = new SparkContext(conf)

val sqlContext = new HiveContext(sc)

sqlContext.sql("select * from myhive.student").show()

}

运行结果

六、SparkSQL 的元数据

1.1元数据的状态

SparkSQL 的元数据的状态有两种：

1、in_memory,用完了元数据也就丢了

2、hive , 通过hive去保存的，也就是说，hive的元数据存在哪儿，它的元数据也就存在哪儿。

换句话说，SparkSQL的数据仓库在建立在Hive之上实现的。我们要用SparkSQL去构建数据仓库的时候，必须依赖于Hive。

2.2Spark-SQL脚本

如果用户直接运行bin/spark-sql命令。会导致我们的元数据有两种状态：

1、in-memory状态：如果SPARK-HOME/conf目录下没有放置hive-site.xml文件，元数据的状态就是in-memory

2、hive状态：如果我们在SPARK-HOME/conf目录下放置了，hive-site.xml文件，那么默认情况下，spark-sql的元数据的状态就是hive.

智慧屏幕App开发如何引领未来教育与商业展示的变革？

616 2022-12-20

SparkSQL使用快速入门

智慧屏幕App开发如何引领未来教育与商业展示的变革？

智慧屏安装 app如何提升家庭娱乐与教育体验的关键工具

代驾app系统开发如何推动出行服务的智能化与便捷化

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计