'''强大又灵活的网页解析库。如果你觉得正则写起来太麻烦,又觉得BeautifulSoup
语法太难记,如果你熟悉jQuery的语法,那么PyQuery就是你的绝佳选择。'''
from pyquery import PyQuery as pq
'''初始化'''
#字符串初始化
html = '''
<div class="wrap">
<div id="container">
<ul class="list">
<li class="item-0">first item</li>
<li class="item-1"><a href="link2.html">second item</a></li>
<li class="item-0 active"><a href="link3.html"><span class="bold">third item</span></a></li>
<li class="item-1 active"><a href="link4.html">fourth item</a></li>
<li class="item-0"><a href="link5.html">fifth item</a></li>
</ul>
</div>
</div>
'''
doc = pq(html)
print(doc('li')) #CSS选择器 #URL初始化
doc = pq(url="http://www.baidu.com")
print(doc('head')) #文件初始化
doc = pq(filename='demo.html')
print(doc('li')) '''基本CSS选择器'''
print("-基本CSS选择器-"*20)
doc = pq(html)
print(doc("#container .list li")) #空格表示子孙关系,非直接父子关系
#子元素
items = doc(".list")
print(type(items),items)
## find()是在当前items元素下查找
lis = items.find('li')
print(type(lis),lis)
print(items.children())
print(items.children('.active'))
#父元素
items = doc('.list')
parents = items.parents() #返回所有的祖先元素
print(parents)
parent = items.parents('.wrap')
print(parent)
#兄弟元素
li = doc(".list .item-0.active") #.item-0和.active之间无空格,表示并列同时满足,多类选择器。
print(li.siblings())
print(li.siblings('.active'))
'''遍历'''
print("-遍历-"*20)
#单个元素
li = doc(".item-0.active")
print(li)
#多个元素
lis = doc('li').items()
print(type(lis))
for li in lis:
print(li) '''获取信息'''
print("-获取信息-"*20)
#获取属性
a = doc(".item-0.active a")
print(a)
print(a.attr('href'))
print(a.attr.href)
#获取文本
a = doc(".item-0.active a")
print(a.text())
#获取HTML
a = doc(".item-0.active")
print(a)
print(a.html()) #获取标签里边的HTML代码
'''DOM操作'''
print("-DOM操作-"*20)
#addClass、removeClass
li = doc('.item-0.active')
print(li)
li.removeClass('active') #将得到的li标签元素去除active类标签
print(li)
li.addClass('active') #将得到的li标签元素添加active类标签
print(li)
#attr、css
li.attr('name','link') #添加name属性值为link
print(li)
li.css('font-size','14px') #添加一个css属性font-size值为14px
print(li)
#remove
htm = '''
<div class="wrap">
Hello,World
<p>This is a paragraph.</p>
</div>
'''
do = pq(htm)
wrap = do('.wrap')
print(wrap.text())
wrap.find('p').remove()
print(wrap.text()) '''伪类选择器'''
print("-伪类选择器-"*20)
li = doc("li:first-child") #得到第一个li
print(li)
li = doc("li:last-child") #得到最后一个li
print(li)
li = doc("li:nth-child(2)") #得到第二个li
print(li)
li = doc("li:gt(2)") #得到第二个以后的li
print(li)
li = doc("li:nth-child(2n)") #返回第偶数个li
print(li)
li = doc("li:contains(second)") #返回包含second内容的li
print(li)
更多伪类选择器用法参考:https://www.cnblogs.com/miss85246/p/10397601.html
												

最新文章

  1. myeclipse 第一步
  2. [.net 面向对象编程基础] (5) 基础中的基础——变量和常量
  3. JavaScript工作原理和Node异步I/O
  4. Jetty 9嵌入式开发
  5. iOS 准确计算某个时间点距现在的时间差的代码 如&quot;几分钟,几小时,几秒之前&quot; ,
  6. Objective-C:Foundation框架-常用类-NSMutableString
  7. windows下搭建属于自己的web服务器
  8. Leetcode算法刷题:第14题 Longest Common Prefix
  9. 求交集,差集,并集,善用java的set
  10. awk使用正则精确匹配
  11. centos7.4卸载再安装mariadb服务无法启动问题
  12. Thinkphp5.0 多图上传名称重复BUG
  13. [ZOJ2069]Greatest Least Common Multiple
  14. html5 手机端 通讯录 touch 效果
  15. Luogu 2157 [SDOI2009]学校食堂 - 状压dp
  16. 对Tomcat启动或运行时,项目对jar包依赖路径的一些粗浅认知
  17. spoj Help the Military Recruitment Office!
  18. maven选包算法(两个相同的包)
  19. Jmeter-Logic Controllers(逻辑控制器)
  20. work notes

热门文章

  1. element-ui 2.4.8 BUG 标签页的最后一个Tab标题没法移除,更新后发现最新版本不存在该问题了 记录下
  2. AngularJS学习之旅—AngularJS 简介(一)
  3. Linux文件管理命令 cat
  4. Ubuntu下启动 Redis时, 提示 "Can't open the log file: Permission denied failed"
  5. FCM算法的matlab程序2
  6. A. On The Way to Lucky Plaza 概率 乘法逆元
  7. mabatis insert into on duplicate key
  8. linux crontab定时器
  9. UVA11491-Erasing ans Winning(贪心)
  10. Android 6.0以后的版本报错:open failed: EACCES (Permission denied)