Python编写开发MapReduce程序入门教程（MapReduce教程）-FinClip官网

Python编写开发MapReduce程序入门教程（MapReduce教程）

网友投稿 1560 2022-08-16

Python编写开发map reduce程序入门教程（MapReduce教程）

Python编写开发MapReduce程序入门教程（MapReduce教程）

Hadoop作为目前大数据处理的主流平台框架，MapReduce和HDFS是其主要的组成组件。使用MapReduce可以顺利完成大数据分析任务，其经典的应用场景就是使用Java语言编写MapReduce任务。除此之外，MapReduce还兼容了Streaming方式，为其他语言提供使用MapReduce完成大数据分析的接口。本文章主要介绍如何使用Python语言来编写MapReduce程序进行模拟分布式计算，对于不擅长Java语言但熟悉使Python语言（大数据分析必用语言）的人来说是福音。

模拟分布式计算

作为分布式计算的入门例子 wordCount ，是统计大文件中每个单词的个数。任务非常简单，如果这个文件的大小超过了单机的内存，处理起来很困难，我们需要借助集群来完成这个统计任务。下图是本文程序的流程：

首先导入使用的包

from functools import reduce

import numpy as np

from typing import List, Dict

from collections import defaultdict

首先我们模拟生成单词文件,每个单词假设3个字母。输出文件名称为 words.txt .

def generate_random_words_file(sample_num: int = 100):

"""

生成随机字母的样本文件

:param sample_num: 样本数

"""

# 97-122 ==> a-z

with open("words.txt", "w") as fd:

random_words = np.random.randint(97, 110, (3, sample_num))

for row in range(sample_num):

words = "".join([chr(each) for each in random_words[:, row]])

fd.write(words + "\n")

接下来读取单词文件，然后进行分块。我们就直接分块读取，默认块大小为10个单词。

def read_file_by_chunk(lines: int = 10) -> List[List[str]]:

"""

分块读取文件

:param lines: 行数

"""

res = []

with open("words.txt") as fd:

tmp_chunk = []

for idx, line in enumerate(fd.readlines(), start=1):

tmp_chunk.append(line.strip())

if idx % lines == 0:

res.append(tmp_chunk)

tmp_chunk = []

return res

对大文件进行分块以后，接下来对每个块文件进行map映射，统计出每个块的单词数量，返回字典数据，映射函数作为map的参数。

def map_count(data: List[str]) -> Dict[str, int]:

"""

统计单词个数

"""

word_count = defaultdict(int)

for item in data:

word_count[item] += 1

return word_count

有了映射函数，接下来写归纳操作。归纳操作的函数只需要完成两个map的计算，这个函数将作为reduce的参数，将所有map结果进行归纳。

def reduce_count(data1: Dict[str, int], data2: Dict[str, int]) -> Dict[str, int]:

"""

合并两个map

"""

for k, v in data2.items():

data1[k] = data1[k] + data2[k]

return data1

定义完map和reduce以后接下来完成主函数.模拟生成10万个单词的文件，每个数据块100个单词，通过MapReduce计算以后，输出词频最高的前10个单词。

if __name__ == '__main__':

generate_random_words_file(sample_num=100000)

data_chunk = read_file_by_chunk(lines=100) # 数据切片

map_res = map(map_count, data_chunk) # map

reduce_res = reduce(reduce_count, map_res) # reduce

reduce_res = sorted(reduce_res.items(), key=lambda x: x[1], reverse=True) # 排序

for each in reduce_res[:10]:

print(each)

输出结果:

('ckk', 72)

('cak', 72)

('lae', 72)

('mah', 68)

('abe', 67)

('gcg', 67)

('jlg', 66)

('hmf', 66)

('bmd', 65)

('jem', 64)

总结

jquery.min.map 404 (Not Found)出错的原因及解决办法

1560 2022-08-16

Python编写开发MapReduce程序入门教程（MapReduce教程）

函数式编程简介（函数式编程教程）

jquery.min.map 404 (Not Found)出错的原因及解决办法

CSS 类名的单词连字符：下划线还是连接符？

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计