本例子用命令行调试的方式,演示如何获取页面的特定信息: 0) 示例页面 1) 使用scrapy shell获取目标页面: scrapy shell http://bj.lianjia.com/ershoufang/pg1tt2/ 2)找到提取路径 在页面(本例中使用谷歌浏览器)用F12查看代码,找到要提取目标字段,如第一个房源的地址,在工具下栏有一个css的"路径": html body div div ul.sellListContent li.clear div.info.clea
今天有同学问如何用 JS 正则表达式获取一段文本中的超链接,并对超链接进行处理,想了几分钟,写了下面的代码: var re = /https?:\/\/[\w\.:~\-\d\/]+(?:\?[\w\d\-_&=%]+)?(?:#[^\s]+)?/i; 这个正则表达式处理这种类型的URL: protocol://host:port/path?param=value#xxoo 想法是好的,但总要测试通过才可以,随即又写了一段获取页面内所有带有 src, href 属性的代码: function g
1.通过标签获取元素,返回一个数组 var li = document.getElementsByTagName('li');//标签获取元素 li[0].innerHTML;// 查看获取元素的内容 li[0].innerHTML = "content";//修改获取到标签中的内容 2.通过id获取页面元素 var header = document.getElementById("header");//id获取元素 3.通过class名字获取页面元素 var l