SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

网友投稿 780 2022-12-20

SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

SparkSQL使用IDEA快速入门DataFrame与DataSet的完美教程

目录1.使用IDEA开发Spark SQL1.1创建DataFrame/DataSet1.1.1指定列名添加Schema1.1.2StructType指定Schema1.1.3反射推断Schema

1.使用IDEA开发Spark SQL

1.1创建DataFrame/DataSet

1、指定列名添加Schema

2、通过StrucType指定Schema

3、编写样例类,利用反射机制推断Schema

1.1.1指定列名添加Schema

//导包

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.SparkSession

//代码

// 1.创建SparkSession

val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()

// 2.使用spark 获取sparkContext 上下文对象

val sc = spark.sparkContext

// 3.使用SparkContext 读取文件并按照空格切分 返回RDD

val rowRDD: RDD[(Int, String, Int)] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>(x(0).toInt,x(1),x(2).toInt))

// 4.导入隐式类

import spark.implicits._

//5.将RDD 转换为DataFrame 指定元数据信息

val dataFrame = rowRDD.toDF("id","name","age")

//6.数据展示

dataFrame.show()

1.1.2StructType指定Schema

//导包

import org.apache.spark.sql.{Row, SparkSession}

import org.apache.spark.sql.types.{IntegerType, StringType, StructField, StructType}

//编写代码

//1.实例SparkSession

val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()

//2.根据SparkSession获取SparkContext 上下文对象

val sc = spark.sparkContext

// 3.使用SparkContext读取文件并按照空开切分并返回元组

val rowRDD = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Row(x(0).toInt,x(1),x(2).toInt))

// 4.导入隐式类

import spark.implicits._

//5.使用StructType 添加元数据信息

val schema = StructType(List(

StructField("id", IntegerType, true),

StructField("name", StringType, true),

StructField("age", IntegerType, true)

))

//6.将数据与元数据进行拼接 返回一个DataFrame

val dataDF = spark.createDataFrame(rowRDD,schema)

//7.数据展示

dataDF.show()

1.1.3反射推断Schema

//导包

import org.apache.spark.rdd.RDD

import org.apache.spark.sql.SparkSession

//定义单例对象

case class Person(Id:Int,name:String,age:Int)

//编写代码

//1.实例sparkSession

val spark = SparkSession.builder().master("local[*]").appName("sql").getOrCreate()

//2.通过sparkSession获取sparkContext 上下文对象

val sc = spark.sparkContext

//3.通过sparkContext 读取文件并按照空格切分 将每一个数据保存到person中

val rowRDD: RDD[Person] = sc.textFile("./data/person.txt").map(_.split(" ")).map(x=>Person(x(0).toInt,x(1),x(2).toInt))

// 4.导入隐式类

import spark.implicits._

//5.将rowRDD转换为dataFrame

val dataFrame = rowRDD.toDF()

//6.数据展示

dataFrame.show()

到此这篇关

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:一体化政务服务平台意义(政务服务一体化平台七个统一)
下一篇:一体化政务服务平台移动端(一体化政务服务平台移动端登录)
相关文章

 发表评论

暂时没有评论,来抢沙发吧~