Regular Express 匹配中文,所有中文标点符号
2024-08-27 01:52:09
import re
import requests
text=requests.get("https://movie.douban.com").text
#1.匹配汉字 \u4E00-\u9FA5
re.findall('[ \u4E00-\u9FA5]+',text)
#参考
https://www.qqxiuzi.cn/zh/hanzi-unicode-bianma.php
#2.匹配所有中文标点符号 [\u3002|\uff1f|\uff01|\uff0c|\u3001|\uff1b|\uff1a|\u201c|\u201d|\u2018|\u2019|\uff08|\uff09|\u300a|\u300b|\u3008|\u3009|\u3010|\u3011|\u300e|\u300f|\u300c|\u300d|\ufe43|\ufe44|\u3014|\u3015|\u2026|\u2014|\uff5e|\ufe4f|\uffe5]
re.findall('[\u3002|\uff1f|\uff01|\uff0c|\u3001|\uff1b|\uff1a|\u201c|\u201d|\u2018|\u2019|\uff08|\uff09|\u300a|\u300b|\u3008|\u3009|\u3010|\u3011|\u300e|\u300f|\u300c|\u300d|\ufe43|\ufe44|\u3014|\u3015|\u2026|\u2014|\uff5e|\ufe4f|\uffe5]',text)
#参考
https://blog.csdn.net/cysear/article/details/80435756
最新文章
- AgileEAS.NET SOA 中间件Web运行容器管理功能已全部开源,欢迎大家下载、使用、反馈
- vs2010如何安装mvc3,怎样安装,详细的步骤,从哪下载?请看这篇文章。
- maven整理——初步
- Win10上使用SVN遇到的一些问题
- [Java] Java 获取数据库所有表基本信息和表中的所有列基本信息代码
- nginx 安装手记 分类: Nginx 服务器搭建 2015-07-14 14:28 15人阅读 评论(0) 收藏
- SqQueue(环状队列(顺序表结构))
- volatile关键字的特性总结
- iOS开发常用第三方库
- SSH免密登录实现
- 【Linux】如何在Linux上安装使用SSH
- introduce of servlet and filter
- javabean转换为map对象
- 传纸条---(dp)
- day11 filter函数
- [LeetCode] 367. Valid Perfect Square_Easy tag:Math
- VC++6 调用teststand api的方法
- java的Scanner获取输入内容
- android地址位置
- dir 使用,统计文件数量