perl编码转换-FinClip官网

perl编码转换

网友投稿 979 2022-08-25

perl编码转换

gb2312转Utf8的方法： use Encode; my $str = "中文"; $str_cnsoftware = encode("utf-8", decode("gb2312", $str)); Utf8转gb2312的方法： use Encode; my $str = "utf8中文"; $str_cnsoftware = encode("gb2312", decode("utf-8", $str);

或用

use Encode;

Encode::from_to($octets, "iso-8859-1", "cp1250");

本文和大家重点讨论一下Perl不同编码之间的变换，Perl从5.6开始已经开始在内部使用utf8编码来表示字符，也就是说对中文以及其他语言字符的处理应该是完全没有问题的。

Perl不同编码之间的变换

Perl从5.6开始已经开始在内部使用utf8编码来表示字符，也就是说对中文以及其他语言字符的处理应该是完全没有问题的。我们只需要利用好Encode这个模块便能充分发挥Perl的utf8字符的优势了。

下面就以中文文本的处理为例进行说明，比如有一个字符串”测试文本”，我们想要把这个中文字符串拆成单个字符，可以这样写：

1. useEncode;2. $dat=”测试文本”;3. $str=decode(”gb2312″,$dat);4. @chars=split//,$str;5. foreach$char(@chars){6. printencode(”gb2312″,$char),”/n”;7. }

结果大家试一试就知道了，应该是令人满意的。

这里主要用到了Encode模块的decode、encode函数。要了解这两个函数的作用我们需要清楚几个概念：

1、Perl字符串是使用utf8编码的，它由Unicode字符组成而不是单个字节，每个utf8编码的Unicode字符占1~4个字节（变长）。

2、进入或离开Perl处理环境（比如输出到屏幕、读入和保存文件等等）时不是直接使用Perl字符串，而需要把Perl字符串转换成字节流，转换过程中使用何种编码方式完全取决于你（或者由Perl代劳）。一旦Perl字符串向字节流的编码完成，字符的概念就不存在了，变成了纯粹的字节组合，如何解释这些组合则是你自己的工作。

我们可以看出如果想要Perl按照我们的字符概念来对待文本，文本数据就需要一直用Perl字符串的形式存放。但是我们平时写出的每个字符一般都被作为纯ASCII字符保存（包括在程序中明文写出的字符串），也就是字节流的形式，这里就需要encode和decode函数的帮助了。

◆encode函数顾名思义是用来编码Perl字符串的。

它将Perl字符串中的字符用指定的编码格式编码，最终转化为字节流的形式，因此和Perl处理环境之外的事物打交道经常需要它。其格式很简单：$octets=encode(ENCODING,$string[,CHECK])

$string：Perl字符串encoding：　是给定的编码方式$octets:是编码之后的字节流check:　表示转换时如何处理畸变字符（也就是Perl认不出来的字符）。一般不需使用编码方式视语言环境的不同有很大变化，默认可以识别utf8、ascii、ascii-ctrl、iso-8859-1等。

◆decode函数则是用来解码字节流的。

它按照你给出的编码格式解释给定的字节流，将其转化为使用utf8编码的Perl字符串，一般来说从终端或者文件取得的文本数据都应该用decode转换为Perl字符串的形式。它的格式为：$string=decode(ENCODING,$octets[,CHECK])$string、ENCODING、$octets和CHECK的含义同上。

现在就很容易理解上面写的那段程序了。因为字符串是用明文写出的，存放的时候已经是字节流形式，丧失了本来的意义，所以首先就要用decode函数将其转换为Perl字符串，由于汉字一般都用gb2312格式编码，这里decode也要使用gb2312编码格式。转换完成后Perl对待字符的行为就和我们一样了，平时对字符串进行操作的函数基本上都能正确对字符进行处理，除了那些本来就把字符串当成一堆字节的函数（如vec、pack、unpack等）。于是split就能把字符串切成单个字符了。最后由于在输出的时候不能直接使用utf8编码的字符串，还需要将切割后的字符用encode函数编码为gb2312格式的字节流，再用print输出。

另外，还可以用下面的方法来＂猜＂出字符串的编码．但我试过，也不是每次都管用．

useEncodeqw/from_to/;useEncode::Guessqw/euc-jpshiftjis/;

openINFILE"....";#输入的文件是SHIFT-JIS编码的文件这里只转换第一行做个测试

1. my$str=2. my$enc=guess_encoding($str);3. if(ref$enc){4. $from=$enc->name;5. }else{6. $from="shiftjis";7. }8. 9. from_to($str,$from,$to);10. printSTDOUT"ThetestStringis:$str";11.

当输入文件行纪录是日文汉字开头的时候,是可以判断出来编码类型是shift-jis的．但是当开头是一组数据再加个逗号之类的数据时，就猜不到了．原因还不是很明确．

智慧屏安装 app如何提升家庭娱乐与教育体验的关键工具

979 2022-08-25

perl编码转换

app开发者平台在数字化时代的重要性与发展趋势解析

智慧屏第三方App安装如何提升用户体验与功能拓展

智慧屏安装 app如何提升家庭娱乐与教育体验的关键工具

最近发表

更多内容

小程序SDK

Finclip技术文档

小程序开发

小程序容器

小程序框架

Finclip小程序平台

Finclip用户投稿

车联网

推荐文章

小程序SDK是什么意思？小程序sdk和插件有什么区别？

小程序支付功能怎么实现？

企业app开发流程是什么？

app运营模式有哪些？

小程序多端引流怎么做？

小程序生态分析的机会和威胁

Flutter入门这一篇效率文章就够了

原生与跨平台解决方案分析,跨平台软件开发技术方案

热更新技术：让软件更新变得更加轻松快速

解决方案

银行解决方案

证券解决方案

互联网解决方案

政企OA解决方案

科技解决方案

loT解决方案

信任解决方案

热评文章

AppCan:基于混合模式的移动应用开发,移动混合模

Hybrid App混合模式开发的了解

小程序容器技术助力券商数字营销突围，小程序容器化的意

用mpvue开发微信小程序基础知识（vue.js开发

小程序多端框架全面测评对比，强烈推荐！

券商app架构 - 解析券商应用程序的构建与设计