API说明——下载gsExtractor内容提取器

1,接口名称

下载内容提取器

2,接口说明

如果您想编写一个网络爬虫程序,您会发现大部分时间耗费在调测网页内容提取规则上,不讲正则表达式的语法如何怪异,即便使用XPath,您也得逐个编写和调试。

如果要从一个网页上提取很多字段,逐个调试XPath将是十分耗时的。通过这个接口,你可以直接获得一个调测好的提取器脚本程序,是标准的XSLT程序,您只需针对目标网页的DOM运行它,就能获得XML格式的结果,所有字段一次性获得。

这个XSLT提取器可以是您用MS谋数台生成的,也可以是其他人共享给您的,只要您有读权限,皆可下载使用。

用于数据分析和数据挖掘的网络爬虫程序中,内容提取器是影响通用性的关键障碍,如果这个提取器是从API获得的,您的网络爬虫程序就能写成通用的框架。请参看GooSeeker的开源Python网络爬虫项目(访问网址:)。

3,接口规范

3.1,接口地址(URL)


3.2,请求类型(contentType)
不限

3.3,请求方法
HTTP GET

3.4,请求参数

  • key 必选:Yes;类型:String;说明:申请API时分配的AppKey

  • theme 必选:Yes;类型:String;说明:提取器名,就是用MS谋数台定义的规则名

  • middle 必选:No;类型:String;说明:规则编号,如果相同规则名下定义了多个规则,需填写

  • bname 必选:No;类型:String;说明:整理箱名,如果规则含有多个整理箱,需填写

注释:请参看GooSeeker网络爬虫术语解释:集搜客GooSeeker专有名词解释(访问网址:

3.5,返回类型(contentType)
text/xml; charset=UTF-8

3.6,返回参数
HTTP消息头中的参数,如下:

  • more-extractor 类型:String;说明:相同规则名下有多少个提取器。通常只在可选参数没有填写的时候需要关注这个参数,用以提示客户端有多个规则和整理箱,客户端自己决定是否要在发送请求时携带明确的参数

3.7,返回错误信息

  • 消息层错误以HTTP 400返回,比如,URL中的参数不符合本规范

  • 应用层错误以HTTP 200 OK返回,具体错误码用XML文件放在消息体中,XML结构如下:

    <return>
    <code>具体的错误码</code>
    </return>
  • 具体的code值如下:

    keyError:权限验证失败
    paramError:URL中传来的参数有误,比如,参数名称或值不正确
    empty:非错误状态,而是请求的提取器是不存在的,比如,某个抓取规则并没有创建整理箱,则返回empty

4,用法范例(python语言)

提取器名获取参考 1分钟快速生成用于网页内容提取的xslt

示例代码:


接下来我会对此API进行测试,将案例发布出来。

5,相关文档

1, Python即时网络爬虫项目: 内容提取器的定义

6,集搜客GooSeeker开源代码下载源

1, GooSeeker开源Python网络爬虫GitHub源

7,文档修改历史

1,2016-06-23:V1.0

最新文章

  1. Verify Preorder Serialization of a Binary Tree
  2. JAVA导出数据到excel中大数据量的解决方法
  3. 通过设计让APP变快的6个方法
  4. (转)android ndk 给结构体赋值的方法
  5. 【Java 小实验】重写(覆写 Override)返回值类型能不能相同
  6. 通过Func 委托理解委托和匿名方法及Lambda 表达式
  7. Swoole笔记(五)
  8. 深度学习word2vec笔记之基础篇
  9. LeetCode算法题-Rotated Digits(Java实现)
  10. 在chrome 怎么通过ajax请求加载本地文件
  11. 洛谷P5206 [WC2019]数树 [容斥,DP,生成函数,NTT]
  12. Android 开发 View的API 转载
  13. sql中遍历字符串
  14. 谈谈 iOS 中图片的解压缩
  15. sudo 找不到命令 go
  16. Java连接S3并上传Redis
  17. 【从0到1学Web前端】CSS定位问题三(相对定位,绝对定位) 分类: HTML+CSS 2015-05-29 23:01 842人阅读 评论(0) 收藏
  18. 【Android开发】构建Android源码编译环境
  19. \n,\r,\t
  20. C高级第三次作业(1)

热门文章

  1. [Zookeeper研究]一 Zookeeper技术简介
  2. poj 1177 picture
  3. php 实现同一个账号同时只能一个人登录
  4. oc语言--BLOCK和协议
  5. html 标记语言
  6. Multi-Channel MAC for Ad Hoc Networks: Handling Multi-Channel Hidden Terminals Using A Single Transceiver
  7. 如何使用Prism框架的EventAggregator在模块间进行通信
  8. javascript加载优化
  9. C语言的本质(35)——共享库
  10. ## GridView 布局:item设置的高度和宽度不起作用、自动适配列数、添加Header和Footer ##