linux中计算文本文件中某个字符的出现次数-FinClip官网

linux中计算文本文件中某个字符的出现次数

网友投稿 1351 2022-08-28

linux中计算文本文件中某个字符的出现次数

文章目录

linux中计算文本文件中某个字符的出现次数

1. 概述2.使用 `grep` 命令2.1. 不区分大小写的搜索2.2. 使用多个输入文件3.使用 `tr`命令3.1. 不区分大小写的搜索4. 使用 `awk`命令5. 性能比较6:结论

linux中计算文本文件中某个字符的出现次数

1. 概述

在本教程中，我们将学习使用 Linux 命令查找文本文件中特定字符的计数。假设你对常用的 Linux 命令有基本的了解，包括grep、awk、tr和wc。rumenz.txt 中有一些虚拟数据：

> cat rumenz.txt rumenz.txthello world!!!!

2.使用 grep 命令

该grep的用于在输入文件中的给定图案的命令的搜索。让我们通过命令来使用grep 获取字符数：

> grep -o 'e' rumenz.txt | wc -l2

在这里，我们在文件rumenz.txt中查找字符e的出现次数。-o 选项打印在所述匹配部分。现在，我们使用管道运算符将grep命令的输出传递给wc命令。最后，wc命令中的-l选项计算输入字符串中的总行数。

2.1. 不区分大小写的搜索

在grep的命令支持 -i来进行区分大小写的搜索选项：

> grep -o -i 'l' rumenz.txt | wc -l3

2.2. 使用多个输入文件

我们可以将多个输入文件传递给grep 命令。然后它会查看所有文件并返回在每个文件中找到的字符数总和：

> cat > dummy.txtThis is dummy text.$ grep -o -i 'e' rumenz.txt dummy.txt | wc -l2

在这里，我们已经创建了一个新的文件 dummy.txt文件，都执行字符计数操作rumenz.txt和dummy.txt。请注意，我们已将两个文件作为参数传递给 grep 命令。输出包括来自两个文件的字符数总和。

3.使用 tr命令

该tr 是一个命令行应用程序来执行基于字符的转换。我们可以结合使用-c和-d两个选项来获取字符数：

> tr -c -d 'l' < rumenz.txt | wc -c3

让我们首先了解上面命令中使用的选项。

-c : 取代所有不属于第一字符集的字符-d : 将删除集合中提到的所有字符

集合被定义为字符串。在我们的例子中，集合是一个带有单个字符l的字符串。现在，当我们将-c 和-d 选项组合在一起时，它将删除除我们在集合中提到的字符之外的所有字符结果字符串将使用管道运算符传递给wc命令。wc命令中的-c选项将返回总字符数。

3.1. 不区分大小写的搜索

我们可以通过在集合中添加大写和小写字符来执行不区分大小写的搜索

> tr -cd 'lL' < rumenz.txt | wc -c3

4. 使用 awk命令

在awk是一种数据驱动的编程语言的是获取输入数据，处理它，并返回所需的输出。与我们目前讨论的两种方法不同，这种方法有点难以理解。让我们看一下命令并了解它是如何工作的：

> awk -F 'e' '{s+=(NF-1)} END {print s}' rumenz.txt 2

awk应用程序的默认字段分隔符是空格。但是这里我们使用-F选项将字段分隔符更新为e 。这将在每次出现e时分隔我们的数据。为我们的数据集形成的组第一行将是rum nz.txt和第二行h、llo world!!!! 。现在，这个片段{s+=(NF-1)} END {print s} 将计算生成的数据的所有部分并从中减去一（因为一个字符匹配会将数据分成两部分。）以获得所需的每行中的字符数。这个计数将被添加到每一行，最后，我们得到整个文件的总字符出现计数。

5. 性能比较

到目前为止，我们讨论的所有三种方法都执行相同的操作。但不同之处在于它们处理数据的方式。现在，对于小字符串或小文件，这些命令执行的时间几乎相同。但真正的区别是当我们的文件太大时。让我们在一个 1.1GB 的文件上运行所有三个命令并监视每个命令所花费的时间：

> ls -lah large.txt -rw-r--r--. 1 root root 1G Jun 12 10:53 large.txt> time grep -o 'e' large.txt | wc -l82256735real 0m 733suser 0m 649ssys 0m 714s> time tr -c -d 'e' > large.txt | wc -c82256735real 0m 542suser 0m 892ssys 0m 433s> time awk -Fe '{s+=(NF-1)} END {print s}' large.txt 82256735real 0m 080suser 0m 589ssys 0m 933s

tr 命令是最快的三个拿到字符数在大型文件。

6:结论

发现tr命令是所有三个命令中最快的，其次是 awk和 grep命令。

在数字化转型中，选择合适的跨平台开发框架不仅能提高效率，还有助于确保数据安全与合规性。

1351 2022-08-28

linux中计算文本文件中某个字符的出现次数

洞察掌握android电视app开发中的安全与合规策略，提升企业运营效率

在数字化转型中，选择合适的跨平台开发框架不仅能提高效率，还有助于确保数据安全与合规性。

在数字化转型浪潮中，企业如何通过跨端开发框架提升运营效率，兼顾合规性与数据安全？

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计