错误描述
Traceback (most recent call last):
File "D:/MyDevTools/PCrawler/crawler_demo/requests/douban_json.py", line 41, in
print(s)
UnicodeEncodeError: 'utf-8' codec can't encode characters in position 23557-23560: surrogates not allowed
引起原因
这段错误代码的意思是python没有办法对这个字符串利用utf-8进行解码,因为没有合适的字符映射到该编码,大部分问题出现在字符串中存在类似\uD83C\uDF1D这种以\u开头的字符串,python会认为这是一个unicode编码,于是想办法把它解码成一个字符串,但发现编码映射表中没有这样的字符与之对应(可能这个编码是一个emoji表情)
解决办法
假设含有\u的字符串resp.text,则可以利用
t = resp.text.encode('utf-8', 'ignore
').decode('utf-8')
因为encode的函数原型是encode([encoding], [errors='strict'])
,可以用第二个参数控制错误处理的策略,默认的参数就是strict
,代表遇到非法字符时抛出异常;如果设置为ignore
,则会忽略非法字符;
如果设置为replace
,则会用?取代非法字符
如果设置为xmlcharrefreplace
,则使用XML的字符引用。
这样转换出错的地方就会忽略,而不是抛出一个UnicodeError异常。
评论区