pyspark_统计行数_过滤

网友投稿 630 2022-11-16

pyspark_统计行数_过滤

pyspark_统计行数_过滤

pyspark_统计行数

windows环境

#方法2需要复制这三行import findsparkfindspark.init()import pyspark import sysfrom pyspark import SparkContext# 创建一个名为lines的RDDlines = sc.textFile("C:/data/readme.txt")# C:/data/readme.txtlines.count() # 统计RDD中的元素个数lines.first() # 这个RDD中的第一个元素,也就是README.md的第一行# sc.stop

filter过滤

#方法2需要复制这三行import findsparkfindspark.init()import pyspark import sysfrom pyspark import SparkContext# 创建一个名为lines的RDDlines = sc.textFile("C:/data/readme.txt")# C:/data/readme.txtpythonLines = lines.filter(lambda line: "affassfasf" in line)pythonLines.first() # 这个RDD中的第一个元素,也就是README.md的第一行# sc.stop

版权声明:本文内容由网络用户投稿,版权归原作者所有,本站不拥有其著作权,亦不承担相应法律责任。如果您发现本站中有涉嫌抄袭或描述失实的内容,请联系我们jiasou666@gmail.com 处理,核实后本网站将在24小时内删除侵权内容。

上一篇:Python_if判断&函数
下一篇:pysaprk_统计词频
相关文章

 发表评论

暂时没有评论,来抢沙发吧~