python爬虫之初体验 - cs-player1_H5之家 - 中国HTML5教程资源分享第一站

HTML5技术

python爬虫之初体验 - cs-player1

字号+ 作者：H5之家来源：博客园 2016-01-29 19:29 我要评论( )

上网简单看了几篇博客自己试了试简单的爬虫哎呦喂很有感觉蛮好玩的之前写博客有点感觉是在写教程啊什么的写的很别扭各种复制粘贴写得很不舒服以后还是怎么舒服怎么写把每天的练习所得写上来就好了本来就是个菜鸟不断学习不断debug就好直接

上网简单看了几篇博客
自己试了试简单的爬虫
哎呦喂
很有感觉
蛮好玩的

之前写博客有点感觉是在写教程啊什么的
写的很别扭
各种复制粘贴
写得很不舒服

以后还是怎么舒服怎么写
把每天的练习
所得
写上来就好了
本来就是个菜鸟
不断学习
不断debug就好

直接上程序：

urllib2 3 import urllib 4 import re pat = re.compile() ) ) ) ) nexturl = SerialNumber = [] 17 nexturl1 = nexturl + SerialNumber[0] s(nexturl2): 23 myurl = nexturl2 values = {: , : } : user_agent } 27 data = urllib.urlencode(values) 28 request = urllib2.Request(myurl, data, headers) 29 myres = urllib2.urlopen(request) 30 return myres 31 32 myres = s(nexturl1) 33 mypage = myres.read() ) total = pattotal.findall(ucpage) num = patnum.findall(ucpage) umax = raw_input() 43 44 picnum = 1 int(picnum) <= int(max): int(total[0]) == int(num[0]): SerialNumber = patnextgroup.findall(ucpage) 51 nexturl1 = nexturl + SerialNumber[0] 52 53 myres = s(nexturl1) 54 55 mypage = myres.read() ) SerialNumber = patnext.findall(ucpage) 58 59 total = pattotal.findall(ucpage) 60 num = patnum.findall(ucpage) 61 62 mat = pat.findall(ucpage) len(mat) : + str(picnum) + + mat[0] + fnp = re.compile() 68 fnr = fnp.findall(mat[0]) 69 if fnr: urllib.urlretrieve(mat[0], fname) picnum+=1 : u

程序抓取的是的图片

抓取完一张

就申请进入下一页继续抓取

运行结果：

收获：

1.html js 不熟悉

2.可以通过找URL直接的规律找下一页的URL

3.查了些资料发现很多东西都可以学 html js beautiful soup等

4.还没习惯用try 语句

5.多练多学多问

6，urllib.urlretrieve（） mypage.decode("gbk")

遇到的困难：

1.一开始不知道下一页的链接在哪找了很久才找到但方法不对不知道有什么好的方法一个原因是不了解 html js

2.一开始不知道怎么“变”到下一页，所以还想着通过pymouse控制鼠标。。。。。。结果鼠标不受控制暴力重启。。。

3.运行的时候会跳出这个问题：IOError: [Errno socket error] [Errno 10060]，为什么呢？还需要设置什么？求大神帮忙解决

　

python 爬虫之初体验 cs-player1

1.本站遵循行业规范，任何转载的稿件都会明确标注作者和来源；2.本站的原创文章，请转载时务必注明文章作者和来源，不尊重原创的行为我们将追究责任；3.作者投稿可能会经我们编辑修改或补充。

相关文章

记一次企业级爬虫系统升级改造（六）：基于Redis实现免费的IP代理池

2017-03-21 09:00
爬虫-漫画喵的100行逆袭 - 喵耳朵

2017-02-20 13:02
Python爬虫基础 - VoidKing

2017-01-23 11:00
记一次企业级爬虫系统升级改造（四）：爬取微信公众号文章（通过搜狗

2017-01-12 10:01

网友点评

精彩导读

Dora.Interception: 一个为.NET Core度身定制

用Visual Studio2017写C++静态库 - jily16

vue全局配置----小白基础篇 - 星光笔

这短短几行代码价值一万 - 小尧弟

HTML5优势 - 计划

热门资讯

关注我们

关注微信公众号，了解最新精彩内容

a