复杂HTML解析
2024-08-26 17:52:38
面对页面解析难题时候,需要注意问题:
1、寻找“打印次页”的链接,或者看看网站有没有HTML样式更友好的移动版(把自己的请求头设置成处于移动设备的状态,然后接收网站移动版)。
2、寻找隐藏在JavaScript文件里的信息。要实现这一点,可能需要查看网页加载的JavaScript文件。比如一个网站上的街道地址(以纬度和经度呈现的)整理成格式整洁的数组时,查看过内嵌谷歌地图的JavaScript文件,里面有每个地址的标记点。虽然网页标题经常会用到,但是这个信息也许可以从网页的URL链接里获取。
3、如果找的信息只存在于一个网站上,别处没有,那你确实是运气不佳。如果不只限于这个网站,那么可以找找其他数据源。有没有其他网站也显示了同样的数据?网站上显示的数据是不是从其他网站上抓取后攒出来的?
最新文章
- win7 ubuntu10.04双系统,重装win7后,修复双启动项
- go-martini 简单分析之一
- JDBC增删改查,PreparedStatement和Statement的区别
- Inside The C++ Object Model - 04 C++对象模型的一个简单示例
- Java 数据类型和变量
- 【标题】一本帮你提高Excel办公效率的VBA书
- SVN 命令行 精编版
- 静默安装oracle11G
- Halcon学习笔记之缺陷检测(一)
- Java基础知识强化之集合框架笔记41:Set集合之HashSet存储自定义对象并遍历练习
- seajs常用API整理
- ExtJS5_自定义菜单2
- java 基础四
- Oracle的Recyclebin策略
- Redis源码 - 事件管理
- python学习:continue及break使用
- [Linux]ln -al输出内容解析
- python requests简介
- js弹出对话框的三种方式(转)
- 蝉知CMS本地迁移到服务器具体步骤