京东定向爬虫(AJAX获取价格数据)_H5之家 - 中国HTML5教程资源分享第一站

笔者声明：只用于学习交流,不用于其他途径。源代码已上传github。githu地址：https://github.com/Erma-Wang/Spider

笔者声明：只用于学习交流,不用于其他途径。源代码已上传github。githu地址：https://github.com/Erma-Wang/Spider
笔者声明：只用于学习交流,不用于其他途径。源代码已上传github。githu地址：https://github.com/Erma-Wang/Spider

重要的事情说三遍~~~！！！只用于学习交流，私自用于其他途径，后果自负！！！
github源代码地址https://github.com/Erma-Wang/Spider(注意，本仓库还有其他的小爬虫，本文章讲解的是JDSpider···)，别忘了给个star哦@、@
***

Python很强大，50行不到的爬虫代码实现京东定向爬虫，虽然其他语言也可以实现，但是个人还是喜欢Python做做小爬虫，笔者iOS开发，曾用OC写过爬虫，苹果高度封装OC语言和强大的第三方库也不能敌当过Python的便捷！！！好吧，说说爬虫实现的基本思路吧，还有AJAX。。。

AJAX，异步加载技术！！！

之前在网上看过很多朋友有一种疑问，为什么在看京东网页的源代码里面看不到价格或则折扣一类的数据，而在网页上正常显示却能看到？。。。之前我也没有想到是AJAX，因为我写写爬虫只是业余爱好吧~~，后来有一次用chrome抓包的时候发现网页加载完成但是其还在刷新数据，突然恍然大悟！！！AJAX，之前看过一篇帖子的很多朋友都在问京东网页的源代码里面看不到价格的数据，如果您是查找这个问题的读者，恭喜您，找对地方了！！！

AJAX

AJAX即“Asynchronous Javascript And XML”（异步JavaScript和XML）,是一种异步加载技术，那么，怎么才能抓到AJAX异步加载可以的request叻？好吧，这里只有细心的观察了，就像一个小偷一样的~宅在电脑前，偷偷地~偷偷滴~观察。。。。。。好吧，下面直接贴上详图吧~

是的就是这个链接，?skuIds=J_xxxxxx，，只要你在后面输入商品的id，你就能查询到商品的折扣价格和正价，这点京东做的一点儿都不好，这个请求居然还是HTTP的GET请求，如果京东内部网络层的工作人员看到这里，你们也改进改进吧，，毕竟这是你们自己的数据呀~好吧，有了这个url，看到这里的大家，估计思路也已经出来了~~

爬虫实现基本思路

本爬虫使用的是scrapy，是一个定向爬虫，当然~好像还没有爬不到的数据，在我的理念里，只要能看到的数据，都能爬取~哈~本篇文章不会讲解scrapy的用法，之后有时间会我会写一写scrapy的基本使用方法~

Itme

#排名
number = scrapy.Field()
#图书名字
bookName = scrapy.Field()
#作者
author = scrapy.Field()
#出版社
press = scrapy.Field()
#图书id
BookID = scrapy.Field()
#正价
price = scrapy.Field()
#折扣价
PreferentialPrice = scrapy.Field()

小爬虫主体小爬虫的脑袋~

设置开始的链接start_urls和构造一个入口def parse(self, response)
我用的是xpath来寻找节点，主要抓取每一个商品的全部信息，应该其都在一个li标签里，看图~不明白，就看图~