发现对于QQ群

空间文件的抓取毫无办法。

QQ空间的代码可圈可点:

做了一个js的“客户端”,第一次加载时,将文件的列表信息全部抓取出来,然后基于js进行翻页和排序。

因此,想要抓取js渲染的dom,是不可能的,此处只能用js或者jq来操作了。

对于这种情况,得用js写“爬虫”逻辑。

附上qq空间群文件的抓取逻辑,如下:

var getDom = function(cls){return document.getElementsByClassName(cls);};
var clickPage = function(index){
pages = getDom("ui_mr5");
for(j=0;j<pages.length;j++){
if(pages[j].innerText==(''+index))
pages[j].click();
}
};
var showAllResource =function(page_count){
for(p = 1; p<=page_count; p++){
clickPage(p);
names = getDom("td_name");
sizes= getDom("td_size");
authors = getDom("td_uploaded_author");
times = getDom("td_time");
for(i =0 ;i<names.length;i++){console.log(names[i].title+","+sizes[i].innerText+","+authors[i].innerText+","+times[i].innerText);}
}
};

 

调用方法,直接在浏览器的console里面执行以上代码后调用:showAllResource(最大的页码);

转载请注明,本文来自:http://www.cnblogs.com/Tommy-Yu/p/4009765.html,谢谢!

最新文章

  1. Android Studio 导入项目 出现安装Error:Cause: failed to find target with hash string &#39;android-23&#39; 等错误
  2. iOS开发之功能模块--推送之坑问题解决
  3. localStorage的使用
  4. Unity IoC Container创建对象过程
  5. AngularJS应用页面切换优化方案
  6. 对TCP说三道四
  7. (转)投票系统,更改ip刷票
  8. MongoDB基本操作命令
  9. 2013第39周一Web打印
  10. Python之路第五天,基础(5)-序列化和字符串格式化
  11. Openssl 升级操作
  12. HDU 2196 Computer (树上最长路)【树形DP】
  13. PHP日常模拟业务的小工具
  14. 转 node.js和 android中java加密解密一致性问题;
  15. ionic中数据进行操作后,需要直接显示改变后的数据,数据刷新
  16. dedecms清空所有文章怎么操作?sql语句如何写?
  17. maven设置每次构建获取最新版本号
  18. java CountDownLatch的使用
  19. tomcat重启步骤
  20. Hibernate错误

热门文章

  1. Daily Scrum – 1/5
  2. java操作mysql中的编码问题解决
  3. jQuery技术交流资料
  4. BIEE 后台新建分析没有你创建的数据源
  5. opencv笔记3:trackbar简单使用
  6. codevs1322 单词矩阵
  7. [IOS Delegate和协议]
  8. P1067Warcraft III 守望者的烦恼(十大矩阵问题之七求递推式)
  9. AndroidManifest File Features
  10. 快速反射DataTable