AJax技术

腾讯博客AJAX页面抓取技术讲解

字号+ 作者:H5之家 来源:H5之家 2017-02-15 11:02 我要评论( )

目前,大型博客一般都采用大量的AJAX技术,例如,展现博客评论时,用Javascript代码异步加载;又如,博文的点击数和回复数等元数据一般也用Javascript异步加载。

目前,大型博客一般都采用大量的AJAX技术,例如,展现博客评论时,用Javascript代码异步加载;又如,博文的点击数和回复数等元数据一般也用Javascript异步加载。页面抓取软件MetaSeeker具有很强的AJAX内容抓取能力,可以处理很多复杂情况,然而,MetaSeeker的可选配置项也很多,一时难于全面掌握。在此,我们讲解一个抓取腾讯博客内容的实例,展示怎样抓取AJAX异步加载的博文点击数。

读者可以用页面抓取规则定义工具MetaStudio加载主题名为citic_blog_qzone_detail的信息结构,本信息结构设置了延长模式功能选项,加载信息结构时系统会提示用户点击“后续分析”菜单。本信息结构需要抓取点击数和回复数,用于商业情报挖掘和分析。

该页面上的点击数是用Javascript异步加载的,如果没有采取特别措施,很容易抓取到loading...字样,编辑本信息结构的整理箱,可以看到信息属性“点击数”和“回复数”设定了自定义XPath抓取规则,即设置了XPath过滤器,内容提取表达式和节点定位表达式都定义了以下规则
*//*[@id='viewCntSpan']/text()[not(contains(., 'loading'))]

其中not()函数表示不抓取“loading”字符串,直到点击数加载上才抓取。

 

1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。

相关文章
  • dwr学习札记2之反转ajax

    dwr学习札记2之反转ajax

    2017-02-14 09:03

  • Ajax 学习初始

    Ajax 学习初始

    2017-02-13 11:00

  • php+ajax实现无刷新动态加载数据技术

    php+ajax实现无刷新动态加载数据技术

    2017-02-13 10:00

  • WCF与AJAX的跨域问题?

    WCF与AJAX的跨域问题?

    2017-02-13 09:01

网友点评