上次我不是写了一个自动抓取博客访问量吗 (点击打开链接) 可是昨天晚上我又运行的时候,发现不能用了。。

运行了几次 发现使用URLConnection 得到的网页源码和浏览器直接查看的不同。 URLConnection 使用IO流读取到的源码

只有积分  没有访问量了

而使用浏览器访问 直接查看源码

有访问。

这也就导致了我的程序不能用了  需要更新了

想想原因   可能是幕后主使人把访问量放在了js里面   动态展示,而我使用URLConnection 访问的静态界面  确确实实没有收到。

于是开始百度了  百度过来 百度过去。。

发现了一个回复了三年还没有结贴的帖子

java爬虫项目,如何获取js执行后的完整网页源代码?

里面回复了好多方法  发现有个htmlunit  于是就自己测试一下
发现真的可以。得到了js执行后的源码。
废话不说了。
方法如下
  1. public static void main(String[] args) throws FailingHttpStatusCodeException, MalformedURLException, IOException {
  2. // TODO Auto-generated method stub
  3. WebClient wc=new WebClient(BrowserVersion.FIREFOX_24);
  4. wc.setJavaScriptTimeout(5000);
  5. wc.getOptions().setUseInsecureSSL(true);//接受任何主机连接 无论是否有有效证书
  6. wc.getOptions().setJavaScriptEnabled(true);//设置支持javascript脚本
  7. wc.getOptions().setCssEnabled(false);//禁用css支持
  8. wc.getOptions().setThrowExceptionOnScriptError(false);//js运行错误时不抛出异常
  9. wc.getOptions().setTimeout(100000);//设置连接超时时间
  10. wc.getOptions().setDoNotTrackEnabled(false);
  11. HtmlPage page=wc.getPage("http://blog.csdn.net/su20145104009?viewmode=contents");
  12. String res=page.asText();
  13. //处理源码
  14. deal(res);
  15. }

最后得到的源码如下:

其它的代码和点击打开链接 这篇文章相比几乎没变。如果不明白 可以去看一下  这里就不再赘述了
 
执行后  成功写入到txt文档
使用了htmlunit会弹出好多异常警告
加上这些代码  就会消失了~
  1. LogFactory.getFactory().setAttribute("org.apache.commons.logging.Log",    "org.apache.commons.logging.impl.NoOpLog");
  2. java.util.logging.Logger.getLogger("com.gargoylesoftware.htmlunit")
  3. .setLevel(Level.OFF);
  4. java.util.logging.Logger.getLogger("org.apache.commons.httpclient")
  5. .setLevel(Level.OFF);

由于我们在这里 引入了htmlunit 的jar包  .那么再用上次的脚本批量处理 就行不通了 ~

而且要引入的jar包也不是一个  是多个  所以要批量处理了
首先我们要把所有要用的jar包 使用-cp命令导入。
可是htmlunit的jar包太多了  所以想到一个方法  使用for循环遍历htmlunit文件夹里面的jar文件  将其处理为一个字符串 然后再使用-cp命令 全部代码如下
  1. echo off
  2. setlocal enabledelayedexpansion
  3. ::定义一个字符串
  4. set str=
  5. ::遍历htmlunit文件夹
  6. for /f "delims=" %%a in ('dir /b "E:\lib\htmlunit-2.14-bin\lib\*.jar"') do (
  7. set "str=!str!E:\lib\htmlunit-2.14-bin\lib\%%a;"
  8. )
  9. echo on
  10. e:
  11. javac -cp .;%str% AutoMarkBlogView.java
  12. java -cp .;%str% AutoMarkBlogView
  13. pause

运行结果如下:

 

最新文章

  1. ASP.NET Web API的Controller是如何被创建的?
  2. SQL SERVER 导出数据,数据与结构,结构
  3. Android 读取蓝牙设备信息开发
  4. 一步一步来做WebQQ机器人-(三)(登录QQ并保持在线)
  5. 【转】Android AlertDialog 点击对话框外部区域不关闭的设置
  6. Scala - error: not found: value SortedMap
  7. Linux系统文本命令快速登录与退出
  8. 《剑指Offer》面试题-二维数组中的查找
  9. Python学习入门基础教程(learning Python)--2.3.3Python函数型参详解
  10. 浅析fork()和底层实现
  11. checkbox 实现互斥选择
  12. React Native调试实用技巧,React Native开发者必会的调试技巧
  13. JavaScript(二)数据类型(一)
  14. 如何清除SQLServer服务器名称、登录名等
  15. 使用User Primary Email作为GUID的问题
  16. usb 枚举流程
  17. 使用Vmware CLI 6.5控制虚拟机,并做快照
  18. RDLC 根据条件改变背景颜色-多个IIF
  19. php-编译模块2
  20. Loom

热门文章

  1. 1、webpack课程介绍
  2. ubuntu16.04安装php5
  3. 《剑指offer》面试题15—输出链表中倒数第n个结点
  4. 怎么在const成员函数里面调用非const成员函数?
  5. Telnet 对memcached进行数据操作
  6. TyvjP1863 [Poetize I]黑魔法师之门(2014-8-27)
  7. XCode5 编译ffmpeg流程
  8. P3809【模板】后缀排序
  9. JSP技术概念
  10. CentOS7-MySQL8安装-使用yum库安装