1. 在正常情况下..可以用
import chardet thischarset = chardet.detect(strs)["encoding"]
来获取该文件或页面的编码方式
或直接抓取页面的charset = xxxx 来获取
2. 遇到内容中有特殊字符时指定的编码一样会造成乱码..即内容中非法字符造成的,可以采用编码忽略非法字符的方式来处理.
strs = strs.decode("UTF-8","ignore").encode("UTF-8")decode的第二个参数表示遇到非法字符时所采取的方式
该参数默认为抛出异常.
Copyright © 2019- 91gzw.com 版权所有 湘ICP备2023023988号-2
违法及侵权请联系:TEL:199 18 7713 E-MAIL:2724546146@qq.com
本站由北京市万商天勤律师事务所王兴未律师提供法律服务