python抓取网页时字符集转换问题处理方案分享
问题提出: 有时候我们采集网页,处理完毕后将字符串保存到文件或者写入数据库,这时候需要制定字符串的编码,如果采集网页的编码是gb2312,而我们的数据库是utf-8的,这样不做任何处理直接插入数据库可能会乱码(没测试过,不知道数据库会不会自动转码),我们需要手动将gb2312转换成utf-8。 首先我们知道,python里的字符默认是ascii码,英文当然没问题啦,碰到中文的时候立马给跪。 不知道你还记不记得,python里打印中文汉字的时候需要在字符串前面加 u: print u"来搞基吗?" 这样子中文才能显示,这里面的u的作用就是将后面的字符串转换为unicode码,这样中文才
下载地址
用户评论