字符编码发展史6 — BOM字节序标记

news/2024/10/10 16:11:16

上一篇《字符编码发展史5 — UTF-16和UTF-32》我们讲解了UTF-16和UTF-32编码。本篇我们将继续讲解字符编码中的字节序标记(BOM)。

2.3. 第三个阶段 国际化

2.3.2. Unicode的编码方式

2.3.2.5. BOM

1. 什么是BOM?

BOMByte Order Mark的缩写,翻译成中文是:字节序标记,主要用于文本编码中,表示数据存储的字节顺序。

前面我们讲到UTF-16和UTF-32是存在大小端的字节序问题的。以UTF-16为例,要识别一个文件是以大端(Big-endian)字节序还是小端(Little-endian)字节序存储的,就需要有一个标识来进行标记。业界统一的做法是:在文件的开头加入一个特殊的字符来表示,该字符就是U+FEFF,因此BOM也可认为是该字符(U+FEFF)的一个别名。

  • 在UTF-16BE文件中,BOM是0xFE 0xFF
  • 在UTF-16LE文件中,BOM是0xFF 0xFE
  • 在UTF-32BE文件中,BOM是0x00 0x00 0xFE 0xFF
  • 在UTF-32LE文件中,BOM是0xFF 0xFE 0x00 0x00
2. Windows下为什么会有UTF-8和UTF-8BOM?

UTF-8编码本身并不存在字节序的问题,所以UTF-8编码理论上是不需要字节序的。

熟悉Windows的同学应该知道,Windows的“记事本”在保存时可以选择编码方式,编码方式的下拉框里有UTF-8UTF-8 BOM。我们以UTF-8 BOM保存时,文件的开头三个字节是0xEF 0xBB 0xBF,这就是UTF-8 BOM的标识。

file
记事本保存的编码格式

file
在VSCode中以Hex Editor方式打开

为什么Windows下为什么有UTF-8 BOM,这个已经无从查证,很可能是Windows历史发展的遗留产物。猜测可能是为了明确标识某个文件是由UTF-8编码方式存储的。因为字符编码的发展历史来看,UTF-8的出现晚于ANSI系列编码,Windows早期为了适配各个国家的语言,系统默认编码采用了ANSI系列的编码,美国和西欧地区默认编码是ISO-8859-1,中国大陆默认编码编码是GBK。如:在Windows下有一个XXX.txt的纯文本文件,如果不加字节序标记则无法知道这个文件是UTF-8编码的还是GBK编码的。如果UTF-8编码的文件默认加上BOM标识,则可以通过这个标识来区分是UTF-8还是GBK编码。

在Windows11下,我们看到新建的.txt文件,windows的记事本会默认以UTF-8(无BOM)来保存了,说明Windows操作系统新的版本也默认使用UTF-8编码了。

就跨平台的兼容性而言,UTF-8会比UTF-8 BOM更好。

3. 不同编码的字节序总结
编码方式 BOM字节序标识
UTF-8
UTF-8 BOM 0xEF 0xBB 0xBF
UTF-16BE 0xFE 0xFF
UTF-16LE 0xFF 0xFE
UTF-32BE 0x00 0x00 0xFE 0xFF
UTF-32LE 0xFF 0xFE 0x00 0x00

《字符编码发展史》系列已完结

历史文章推荐:

字符编码发展史5 — UTF-16和UTF-32

字符编码发展史4 — Unicode与UTF-8

字符编码发展史3 — GB2312/Big5/GBK/GB18030

字符编码发展史2 — ISO-8859-N

字符编码发展史1 — ASCII和EASCII


大家好,我是陌尘。

IT从业10年+, 北漂过也深漂过,目前暂定居于杭州,未来不知还会飘向何方。

搞了8年C++,也干过2年前端;用Python写过书,也玩过一点PHP,未来还会折腾更多东西,不死不休。

感谢大家的关注,期待与你一起成长。



【SunLogging】
扫码二维码,关注微信公众号,阅读更多精彩内容

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.ryyt.cn/news/69843.html

如若内容造成侵权/违法违规/事实不符,请联系我们进行投诉反馈,一经查实,立即删除!

相关文章

解决docker启动数据库

1.用docker下载数据库并启动2.若启动失败显示端口被占用 删除虚拟机下载的数据库删除占用的端口号

系统设计 - 笔记

参考 https://www.zhihu.com/question/268090534

回忆上了发条

该文被密码保护。...该文被密码保护。 GGrun happy! happy~ ha~ppy来自WPS 你爱我我爱你我们两个甜蜜蜜~来自 HDK

Guava中的Joiner和Splitter

目录Guava 介绍Joinerlist转stringmap转string处理嵌套集合处理null值Splitterstring转liststring转map多个拆分符输出代码 Guava 介绍 Guava 是 Google 开发的一个开源 Java 库,提供一系列核心功能增强 Java 的标准库。 它包含许多有用的工具和集合类,使 Java 开发更加高效,…

十二、pytorch的基础知识

1、快捷命令2、TensorTensor是PyTorch中重要的数据结构,可认为是一个高维数组。它可以是一个数(标量)、一维数组(向量)、二维数组(矩阵)以及更高维的数组。Tensor和Numpy的ndarrays类似,但Tensor可以使用GPU进行加速。Tensor的基本使用: from __future__ import print…

还在花钱做GIS影像切片?GISBox帮你免费搞定!

GIS影像切片是指将大范围的地理影像数据切割成多个小块,以便更高效地存储、处理和显示。这种技术广泛应用于地图服务、地理信息系统(GIS)、三维可视化等领域,尤其在需要显示大规模地理数据时,通过切片可以显著提升渲染速度和用户体验。目前许多提供GIS影像切片服务的产品都…

硬货!Zabbix监控AIX系统服务案例

本文将介绍如何使用Zabbix自定义键值脚本方式监控AIX 系统IBM CICS中间件进程服务以及日志文件等信息。 Customer Information Control System (CICS) Transaction Server 是 IBM 针对 z/OS 的多用途事务处理软件。这是一个功能强大的应用程序服务器,用于大型和小型企业中的事…

获取pytdx行情服务器ip和port

之前一直用的api.connect(124.71.187.122, 7709)突然不能用了,调查了一下,给出如下解决方案 打开通达信客户端,选项->通讯设置。勾掉"登录时查找最快的主站",手动选择"行情主站",点确定。 点击"选项"中的"断开行情主站",再点…