IDEA 开发配置SparkSQL及简单使用案例代码-FinClip官网

IDEA 开发配置SparkSQL及简单使用案例代码

网友投稿 1017 2022-12-20

IDEA 开发配置SparkSQL及简单使用案例代码

1.添加依赖

在idea项目的pom.xml中添加依赖。

org.apache.spark

spark-sql_2.12

3.0.0

2.案例代码

package com.zf.bigdata.spark.sql

import orgMALboqgKfb.apache.spark.SparkConf

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.{DataFrame, Dataset, Row, SparkSession}

object Spark01_SparkSql_Basic {

def main(args: Array[String]): Unit = {

//创建上下文环境配置对象

val sparkConf = new SparkConf().setMaster("local[*]").setAppName("sparkSql")

//创建 SparkSession 对象

val spark = SparkSession.builder().config(sparkConf).getOrCreate()

// DataFrame

val df: DataFrame = spark.read.json("datas/user.json")

//df.show()

// DataFrame => Sql

//df.createOrReplaceTempView("user")

//spark.sql("select * from user").show()

//spark.sql("select age from user").show()

//spark.sql("select avg(age) from user").show()

//DataFrame => Dsl

//如果涉及到转换操作，转换需要引入隐式转换规则，否则无法转换，比如使用$提取数据的值

//spark 不是包名，是上下文环境对象名

import spark.implicits._

//df.select("age","username").show()

//df.select($"age"+1).show()

//df.select('age+1).show()

// DataSet

//val seq = Seq(1,2,3,4)

//val ds: Dataset[Int] = seq.toDS()

// ds.show()

// RDD <=> DataFrame

val rdd = spark.sparkContext.makeRDD(List((1,"张三",10),(2,"李四",20)))

val df1: DataFrame = rdd.toDF("id", "name", "age")

val rdd1: RDD[Row] = df1.rdd

// DataFrame <=> DataSet

val ds: Dataset[User] = df1.as[User]

val df2: DataFrame = ds.toDF()

// RDD <=> DataSet

val ds1: Dataset[User] = rdd.map {

case (id, name, age) => {

User(id, name = name, age = age)

}

}.toDS()

val rdd2: RDD[User] = ds1.rdd

spark.stop()

}

case class User(id:Int,name:String,age:Int)

}

PS：下面看下在IDEA中开发Spark SQL程序

IDEA 中程序的打包和运行方式都和 SparkCore 类似，Maven 依赖中需要添加新的依赖项：

org.apache.spark

spark-sql_2.11

2.1.1

一、指定Schema格式

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.types.IntegerType

import org.apache.spark.sql.types.StringType

import org.apache.spark.sql.Row

object Demo1 {

def main(args: Array[String]): Unit = {

//使用Spark Session 创建表

val spark = SparkSession.builder().master("local").appName("UnderstandSparkSession").getOrCreate()

//从指定地址创建RDD

val personRDD = spark.sparkContext.textFile("D:\\tmp_files\\student.txt").map(_.split("\t"))

//通过StructType声明Schema

val schema = StructType(

List(

StructField("id", IntegerType),

StructField("name", StringType),

StructField("age", IntegerType)))

//把RDD映射到rowRDD

val rowRDD = personRDD.map(p=>Row(p(0).toInt,p(1),p(2).toInt))

val personDF = spark.createDataFrame(rowRDD, schema)

//注册表

personDF.createOrReplaceTempView("t_person")

//执行SQL

val df = spark.sql("select * from t_person order by age desc limit 4")

df.show()

spark.stop()

}

二、使用case class

import org.apache.spark.sql.SparkSession

//使用case class

object Demo2 {

def main(args: Array[String]): Unit = {

//创建SparkSession

val spark = SparkSession.buildMALboqgKfber().master("local").appName("CaseClassDemo").getOrCreate()

//从指定的文件中读取数据，生成对应的RDD

val lineRDD = spark.sparkContext.textFile("D:\\tmp_files\\student.txt").map(_.split("\t"))

//将RDD和case class 关联

val studentRDD = lineRDD.map( x => Student(x(0).toInt,x(1),x(2).toInt))

//生成 DataFrame，通过RDD 生成DF,导入隐式转换

import spark.sqlContext.implicits._

val studentDF = studentRDD.toDF

//注册表视图

studentDF.createOrReplaceTempView("student")

//执行SQL

spark.sql("select * from student").show()

spark.stop()

}

//case class 一定放在外面

case class Student(stuID:Int,stuName:String,stuAge:Int)

三、把数据保存到数据库

import org.apache.spark.sql.types.IntegerType

import org.apache.spark.sql.types.StringType

import org.apache.spark.sql.SparkSession

import org.apache.spark.sql.types.StructType

import org.apache.spark.sql.types.StructField

import org.apache.spark.sql.Row

import java.util.Properties

object Demo3 {

def main(args: Array[String]): Unit = {

//使用Spark Session 创建表

val spark = SparkSession.builder().master("local").appName("UnderstandSparkSession").getOrCreate()

//从指定地址创建RDD

val personRDD = spark.sparkContext.textFile("D:\\tmp_files\\student.txt").map(_.split("\t"))

//通过StructType声明Schema

val schema = StructType(

List(

StructField("id", IntegerType),

StructField("name", StringType),

StructField("age", IntegerType)))

//把RDD映射到rowRDD

val rowRDD = personRDD.map(p => Row(p(0).toInt, p(1), p(2).toInt))

val personDF = spark.createDataFrame(rowRDD, schema)

//注册表

personDF.createOrReplaceTempView("person")

//执行SQL

val df = spark.sql("select * from person ")

//查看SqL内容

//df.show()

//将结果保存到mysql中

val props = new Properties()

props.setProperty("user", "root")

props.setProperty("password", "123456")

props.setProperty("driver", "com.mysql.jdbc.Driver")

df.write.mode("overwrite").jdbc("jdbc:mysql://localhost:3306/company?serverTimezone=UTC&characterEncoding=utf-8", "student", props)

spark.close()

}

以上内容转自：

https://blog.csdn-/weixin_43520450/article/details/106093582

Flutter开发App的未来及其在各行业的应用潜力分析

1017 2022-12-20

IDEA 开发配置SparkSQL及简单使用案例代码

uniapp开发app框架在提升开发效率中的独特优势与应用探索

Flutter开发App的未来及其在各行业的应用潜力分析

探索flutter框架开发的app在移动应用市场的潜力与挑战

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计