PySpark算子处理空间数据全解析（13）外篇：经纬度数据利用GeoHash进行聚合统计...-FinClip官网

PySpark算子处理空间数据全解析（13）外篇：经纬度数据利用GeoHash进行聚合统计...

网友投稿 958 2022-10-27

PySpark算子处理空间数据全解析（13）外篇：经纬度数据利用GeoHash进行聚合统计...

点数据的分析是空间大数据的主要分析模式：

点分析一般有如下分析内容：

而点分析最常用的算法就是点聚合：

比如在轨迹数据中，任意一个点独立拿出来，都没有任何的意义，比如要了解某个路段某个时间的交通状况，就需要把研究区域内所有的点都进行综合计算，或者用众数，或者用平均数来代表这个区域的基本情况。

所以，点聚合是点数据分析中最常用分析手段。

而我们能够快速获取到的点数据，一般都是LBS（基于位置的服务）数据，基于位置的话，90%以上，都是以经纬度模式进行表达的。

如果数据是经纬度的话，有个非常简单实用是算法，叫做GeoHash：

GeoHash的原理就是按照区域，把经纬度进行编码，按照不同的网格精度，变成不同位数的编码，在同一区域中的编码相同。

比如上图里面的那个例子，如果两个坐标的前6位相同，那么表示在第六级精度格网上，两个坐标处于同一个格网。这样，我们就可以按照编码的内容，按照不同的精度聚合位置点数据了。

GeoHash的网格精度如下：

比如我们要按照152m*152m来设定一个区域，那么设置生成七位数的geohash编码即可，如下面的例子所示：

GeoHash可以让我们快速的对点数据进行聚合，下面我们来看看如何使用GeoHash算法配合PySpark，来对地震数据进行快速聚合统计：

从上面的代码可以看出，如果我们要按照152公里的网格进行聚合，只需要用三级编码就可以了，实际上与以前说过的整除截余法的原理是一样的。

GeoHash能够最大的限度简化网格聚合的算法，但是也有一定的限制，主要的限制就是geohash编码的网格大小是固定的，如果我们要实现100米或者500米网格聚合，就没有办法直接用了。

当然，如果你真的要搞什么500米网格，首先不是要考虑的是geohash，而是考虑先选择一个什么样的投影坐标系——经纬度转换为米本来就是需要进行投影了，而一旦投影之后，你就可以采用整除截余法来进行聚合。

实际上已经说了好几篇的聚合，有的同学可能也有一个疑问：为什么你老在说聚合，难道点数据分析就做聚合就可以了么？

当然不是，但是聚合可以是我们处理数据的一个基本手段，比如要做核密度分析，因为核密度的一个特性，使我们做聚合成为核密度分析的重要前置条件，这个问题，以后我们再说。

待续未完

代码-：

Github:

https://github.com/allenlu2008/PySparkDemo

gitee：

https://gitee.com/godxia/PySparkDemo

微前端架构如何改变企业的开发模式与效率提升

958 2022-10-27

PySpark算子处理空间数据全解析（13）外篇：经纬度数据利用GeoHash进行聚合统计...

微前端架构如何改变企业的开发模式与效率提升

前端开源框架如何提升开发效率与用户体验的关键因素

前端移动端框架如何推动数字化转型与创新发展

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计