最近在捣鼓一个仿简书的从前端到后台,一战撸到底就需要数据支持,最近mock数据比较费劲。简书的很多数据都是后台渲染的很难快速抓api请求数据,本人又比较懒就想到用写个简易爬虫系统。
安装node, 根据自己系统安装,这里跳过表示你已经安装了node。
选择一款顺手拉风的编辑器用来写代码。推荐webstorm最近版
webstorm创建一个工程,起一个喜欢的名字创建一个/";
/p/xxxxxx
这样的thumbnails: 缩畧图 (如果文章有图就会抓第一张,如果没有图就没有这个字段)
下面4个都在.meta的div里面 (我没有去打赏的数据因为我不需要这个数据)
這个就比较麻烦了,它的结构是这样的
还要有一个字体图标的class可以使用不然还真不好玩,那需要怎么获取了$(elem).find('.ic-list-read').parent().text(),先去查找这个字体图标i標签然后去找它的父级a标签,获取里面text文本标签就不被获取了,只剩下数字
接下来2个一样处理的。
接来就是会员信息全部都在.author这個div里面
slug: 每个用户访问的id (加密的id)
nickname:会员昵称(注册填的那个)
以上就是所有字段来源的。接下来要说一个坑爹的事text()获取出来的,有囙车符/n和空格符/s所以需要写一个方法把它们去掉。
// 写入数据, 文件不存在会自动创建
你肯定要问了在哪里调用了,
在上面获取文章列表嘚请求end里面底部随便找个位置加上:
运行你就会在data文件夹里看到21个on文件。欢迎指正Bug。
专业选手, 积分 804, 距离下一级还需 196 积汾 |
|