UnicodeEncodeError ‘utf-8’ codec can’t encode characters in position 25622-25623 surrogates not allowed

UnicodeEncodeError  'utf-8' codec can't encode characters in position 25622-25623  surrogates not allowed

错误描述

Traceback (most recent call last):

File “D:/MyDevTools/PCrawler/crawler_demo/requests/douban_json.py”, line 41, in

print(s)

UnicodeEncodeError: ‘utf-8’ codec can’t encode characters in position 23557-23560: surrogates not allowed

image

引起原因

​ 这段错误代码的意思是python没有办法对这个字符串利用utf-8进行解码,因为没有合适的字符映射到该编码,大部分问题出现在字符串中存在类似\uD83C\uDF1D这种以\u开头的字符串,python会认为这是一个unicode编码,于是想办法把它解码成一个字符串,但发现编码映射表中没有这样的字符与之对应(可能这个编码是一个emoji表情)

解决办法

假设含有\u的字符串resp.text,则可以利用

t = resp.text.encode(‘utf-8’, ‘ignore‘).decode(‘utf-8’)

因为encode的函数原型是encode([encoding], [errors='strict']),可以用第二个参数控制错误处理的策略,默认的参数就是strict,代表遇到非法字符时抛出异常;如果设置为ignore,则会忽略非法字符;

如果设置为replace,则会用?取代非法字符

如果设置为xmlcharrefreplace,则使用XML的字符引用。

这样转换出错的地方就会忽略,而不是抛出一个UnicodeError异常。

大T笔记所有文章均为本人原创,转载请您注明来源,并留下原文链接地址,是对我的尊重,也是对知识的尊重,谢谢!
大T笔记 » UnicodeEncodeError ‘utf-8’ codec can’t encode characters in position 25622-25623 surrogates not allowed

大T笔记-我的个人互联网创业和自由职业之路

关于我 我的百宝箱
大T笔记-专注个人互联网创业和自由职业