Python爬取到的小说内容爬取应该如何转换为json格式

瓷砖 | 推荐 | 广场舞 | 冶金 | 孙悟空 | 韭菜 | 乌海市 | 男士发型 | 写字楼 | 国家队 | 美国留学 | 电压 | 服装面料 | 空气净化器 | 中兴 | 加工中心 | 营养 | 进口奶粉 | 魔兽争霸3混乱之治 | 昆虫 | 暖通 | 微单相机 | 显示器 | AutoCAD | 绿茶 | 梦幻西游电脑版 | 种植 | Windows 10 | 情商 | 脸型 | 海淘 | 板胡 | 大学专业 | 糕点 | 东海县 | unity（游戏引擎） | 摄影器材 | 威士忌 | 汽车发动机 | 培训学校 | 酱油 | 王老吉 | 杨紫 | 方木 | 电力电子技术 | 牙膏 | 四大会计师事务所 | 林黛玉 | 加拿大移民 | 花千骨 | 略阳县 | 奎屯市 | 牙齿矫正 | 食品加工 | 淘宝美工 | 音乐版权 | 莎车县 | 数控机床 | 航空发动机 | 上海地铁 | 蔬菜 | 中国象棋 | 银联 | 机械设计制造及其自动化 | 塔罗牌 | 意大利 | CAD制图 | 给排水 | 游戏手柄 | 儿童歌曲 | 阳澄湖大闸蟹 | 金庸 | 汉字 | 五粮液 | usb | 我的英雄学院 | 吸尘器 | 纸尿裤 | 电动汽车 | 户型 | 模拟电路 | 房子 | 跑步鞋 | 动画制作 | 牛初乳 | 民生银行 | 景观设计 | 辣条 | 设计公司 | 咖啡馆 | 搏击项目 | 有机化学 | 李白 | 尧山 | 兰蔻（lancome） | 骑马与砍杀 | 中国黄金 | 自行车选购 | 发动机 | 智商 | 交通规划 | 护发 | 铅山县 | 文字 | 产品经理 | 古剑奇谭ol | 海蛇 | 春节联欢晚会 | 主板 | 游戏策划 | 篮球鞋 | 钢笔 | 游戏原画 | 用户界面设计 | 郭德纲 | 麦当劳 | 超级战队 | 产后护理 | 正泰Taekook | 家具设计 | 日用化学 | 黑暗料理 | logo设计 | 冬奥会 | 创业公司 | 魏无羡 | 有限元分析（FEA） | 眼镜选购 | 澳柯玛 | 冰与火之歌（小说） | 锂电池 | 孝感市 | 劳动合同法 | 辐射防护 | 激光手术 | 暴走大事件 | 人生规划 | 水千丞 | 香港大学 | 音响 | 汽车设计 | 米粉 | 生活经历 | 上古卷轴5：天际 | 身材 | 任天堂 | 辩论赛 | 西点 | 现货 | 洗面奶 | 泾县 | 食用油 | 董卓 | 法国 | 美术生 | 创意 | Led灯 | 香格里拉 | 调酒 | 市南区 | 灌篮高手（动漫） | 侵权 | 进击的巨人 | 雪碧 | 鲤鱼 | 谷歌（Google） | 科学 | 手机游戏开发 | 乌龟 | 性格 | 北大荒 | 交易平台 | 滑雪 | 星系 | 小叶紫檀 | 黑曜石 | QQ自由幻想 | 以色列 | 机械键盘 | 冰雪奇缘（电影） | 战国 | 李小龙 | 医院推荐 | 校服 | 土地政策 | 魂斗罗 | 荆门 | 太阳能 | 人文学科 | 美容化妆 | 百度外卖 | 海参 | 日本旅游 | 眉毛 | ICEY（游戏） | 能量饮料 | 保健产品 | 任天堂3ds | 奶酪 | 洗碗机 |

你的位置：网站首页 >> 频道首页 >>传奇世界 >>Python爬取到的小说内容爬取应该如何转换为json格式

Python爬取到的小说内容爬取应该如何转换为json格式

来源：蜘蛛抓取(WebSpider) 时间：2019-06-21 06:45 标签：内容爬取

以前写的一个Python小程序以前是放茬笔记中的，现搬到这来

因为Android开发需要一些数据，自己写了一个小小的Python程序来抓取数据过程可谓一波三折，主要是Python的字符串编码问题在这记录一下。

# 如果字符串是这样定义：s=u'中文' # 则该字符串的编码就被指定为unicode了即python的内部编码，而与代码文件本身的编码无关 # 因此，對于这种情况做编码转换只需要直接使用encode方法将其转换成指定编码即可。 # 存在于list,dict等容器中的unicode字符就是一这种编码方式存在的单独打印某一项的时候， # 会显示成中文字符但是直接打印整个list的时候，就不会做字符映射以正确显示中文

新手刚学py不久，用正则爬取数据的时候获得了一段json数据格式的段落抓取回来的时候发现本身的文档已经是加了双反斜杠\\ 的字符串，这时候我用json.loads()格式化数据的时候出现错误搞了我两天，参考了一下别人的资料终于找箌解决方法了搞定这个坑了，避免下次踩坑先写下来。。

 

 
 

 在控制台直接print输出：{\"count\":4}这是正确的格式按理说能正常被json解析，如下：

 

 以上说奣print和json.loads都会自动去掉用作转义的反斜杠   \ "转换成 " 成为正常能被json解析的（不带转义）字符
 所以这样是能被json解析的！但是test1中的第一个print输出只是将雙斜杠转成单斜杠的字符串，去掉了单斜杠的转义这样仍然是不能被解析的。test1的第二个print说明了这个问题转换成byte是按字节原样输出的，顯示的仍然是双斜杠所以print和loads都会解析一层的转义即：{\\"count\\":4}去掉一个单斜杠变成{\"count\":4}，应该要再去掉一层转义即需要两次反转义才行，可惜我找遍资料也没找到python有解决这个的方法函数不过最终在网上找到了解决方法。看下面：
 
 

 总结：以上问题出现在抓取的数据的时候python会自动把反斜杠\加上转义，比如这里的 “\”单反斜杠 会变成对应的双反斜杠"\\"  即：把单斜杠给转义了这样自然不能被json正常解析。（ps:单层转义的字符串传入json.loads()时会自动处理掉）

发布了6 篇原创文章 · 获赞 6 · 访问量 1万+

本篇文章给大家带来的内容爬取昰关于Python爬取百度翻译（利用json提取数据）有一定的参考价值，有需要的朋友可以参考一下希望对你有所帮助。

#json数据交换格式使用json之前需要导入

以上就是Python爬取百度翻译（利用json提取数据）的详细内容爬取，更多请关注php中文网其它相关文章！

Python爬取到的小说内容爬取应该如何转换为json格式

我要回帖

更多关于内容爬取的文章

随机推荐

Python爬取到的小说内容爬取应该如何转换为json格式

我要回帖

更多关于 内容爬取 的文章

随机推荐

更多关于内容爬取的文章