项目下载地址:http://code.google.com/p/phpquery/

获取内容的方法:

第一种:newDocumentFile

phpQuery::newDocumentFile($url);

第二种:

$content = file_get_contents($url);
$htmlObj = phpQuery::newDocumentHTML($content);

获取网页内容:

第一种:获取html节点

pq('title')->html()

第二种:获取script内容(会分数组)

pq("script")->getString();  

突破防爬虫

 function _get_fake_apider($url) {
$ch = curl_init();
$ip = '115.239.211.112'; //百度蜘蛛
$timeout = 15;
curl_setopt($ch,CURLOPT_URL,$url);
curl_setopt($ch,CURLOPT_TIMEOUT, $timeout);
//伪造百度蜘蛛IP
curl_setopt($ch,CURLOPT_HTTPHEADER,array('X-FORWARDED-FOR:'.$ip.'','CLIENT-IP:'.$ip.''));
//伪造百度蜘蛛头部
curl_setopt($ch,CURLOPT_USERAGENT,"Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)");
curl_setopt($ch,CURLOPT_RETURNTRANSFER,1);
curl_setopt($ch,CURLOPT_HEADER,0);
curl_setopt ($ch, CURLOPT_REFERER, "http://www.baidu.com/ "); //构造来路
curl_setopt($ch,CURLOPT_CONNECTTIMEOUT,$timeout);
$content = curl_exec($ch);
return $content;
}

最新文章

  1. Mac MySQL启动不了解决办法(MySQL卸载重新安装教程)
  2. STDIN(0), STDOUT(1), STDERR(2), 2 > &1
  3. C# LINQ详解(转)
  4. 示例篇-购物车的简单示例和自定义JS
  5. log4j.properties配置详解(转)
  6. BNUOJ 1038 Flowers
  7. 修改CSV中的某些值 -- 1
  8. c#中获取路径方法
  9. libmemcached的安装及測试
  10. BeanUtils制作自定义的转换器
  11. spring-boot log
  12. postman中常见的错误
  13. [已解决]Cannot find one or more components.Please reinstall the application
  14. java的集合
  15. mybatis中useGeneratedKeys和keyProperty的作用
  16. (20)jQuery的文档操作(创建,添加、设置样式和删除等)
  17. 深入理解Java面向对象三大特性 封装 继承 多态
  18. java 中的resultset的类型
  19. CNN-利用1*1进行降维和升维
  20. QoS专题-第4期-QoS实现之限速

热门文章

  1. Mac OSX用 dd 命令,浇灌ISO镜像到USB驱动器
  2. React中 checkbox 与 label 标签的搭配
  3. linux配置nodeJs环境教程
  4. HDU - 4811 - Ball (思维)
  5. PAT 乙级 1027
  6. MySQL中数组的存储
  7. IntelliJ IDEA 中自定义模板代码的缩写
  8. mat 和IPIImage之间的转换
  9. ZZULIoj 1913: 小火山的计算能力
  10. LeetCode 673. Number of Longest Increasing Subsequence