python中的编码问题

个人速记

1. python3 和python2 的区别

python3 中有两种表示字符序列的类型:bytes 和 str

  • bytes 字节流,即原始的8个二进制位,又名‘二进制字节流’
  • str:unicode字符

Python2 中表示字符序列的类型为:str 和 unicode

  • str:实为字节流,对应python3中的bytes
  • unicode:unicode字符

注意:python2和3中的unicode都没有和任何特定的二进制编码形式相关联,要想把unicode字符转换为二进制数据,必须要用encode方法,把二进制数据转换为unicode字符,必须要用decode方法。

解码(需要有二进制编码):计算机是如何知道00110011对应‘a’呢?这就需要进行解码
编码(得到二进制编码):将a编码为00110011

2. unicode 、utf-8 、二进制三者之间的区别

  • unicode

unicode只是一个符号集,它只规定了符号的二进制代码,没有规定这个二进制代码如何存储。
unicode编码系统是为表达任意语言而设计的,为了防止存储上的冗余(比如,对应ascii码的部分),其采用了变长编码,但变长编码给解码带来了困难,无法判断是几个字节表示一个字符

  • utf-8
    是针对unicode变长编码设计的一种前缀码,根据前缀可判断unicode中的几个字节表示一个字符。

    ‘严’的 Unicode 是4E25(100111000100101),根据上表,可以发现4E25处在第三行的范围内(0000 0800 - 0000 FFFF),因此严的 UTF-8 编码需要三个字节,即格式是1110xxxx 10xxxxxx 10xxxxxx。然后,从严的最后一个二进制位开始,依次从后向前填入格式中的x,多出的位补0。这样就得到了,严的 UTF-8 编码是11100100 10111000 10100101,转换成十六进制就是E4B8A5。

一句话:
unicode只是一个符号集,只规定了符号的二进制代码;
而utf-8是针对unicode变长编码设计的一种前缀码,可以理解为是一种unicode的存储机制,是unicode的一种实现方式之一。

3. python中的编码和解码
以python2为例
解码:str.decode('utf-8') ,将字节流按照给定的解码方式utf8解码,并转换为unicode。
编码:u.encode('utf-8'),将unicode字符按照给定的编码方式转化为字节流str。

参考(区分先后):

  1. https://www.cnblogs.com/shine-lee/p/4504559.html
  2. http://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
全部评论

相关推荐

蔡徐kun:还行,早挂晚挂都是挂。早点挂进池子等别人捞你
点赞 评论 收藏
分享
02-11 12:20
门头沟学院 Java
面试中的青提很胆小:我不信有比我们学校更逆天的,计算机专业就业第一位是我们学校二餐厅的打印店
点赞 评论 收藏
分享
评论
点赞
收藏
分享

创作者周榜

更多
正在热议
更多
牛客网
牛客企业服务