Stanford NLP 课堂笔记之正则表达式
2024-09-05 05:06:36
1.[]表达式的用法
正则表达式可以让我们匹配我们想要的字符串形式,增加了效率,在自然语言处理领域有较大的作用。
模式 | 匹配 |
[Ww]oodchuck | Woodchuck,woodchuck |
[1234567890] | Any digit |
如上面所用的模式既是正则表达式中的常用语法,在“[]”内部的字母表示可以匹配其中的任一字母,
[A-Z]表示大写字母,[a-z]表示小写字母,[0-9]表示数字,[A-Za-z]表示大写加小写字母,
2.特别字符的用法
模式 | 含义 | 匹配 |
colou?r | 匹配前面表达式0次或1次 | color,colour |
oo*h! | 匹配前面表达式0至无穷次 | oh!,ooh!,oooh! |
o+h! | 匹配前面表达式1至无穷次 | oh!,ooh!,oooh! |
beg.n | 匹配任意字母 | begin,beghn |
a|b|c | a/b/c | a,b,c |
在正则表达式中还有两个表示位置的符号,分别是"^"和"$",代表开头和结尾。
^[A-Z]匹配首字母大写的字符串,如
.$则表示匹配字符串的最后一个任意字母,演示如下
3.示例
下面是一个我们要匹配出所有的the的过程。
当我们直接用the进行匹配时发现出现了两个错误,一个是没有把大写的The匹配进来(准确率),还有一个是把there中的前三个字母误当成了the(召回率)。
对正则表达式进行修改
这样成功的把所有的the匹配出来了,但是召回率依旧没有提高,继续修改
[^A-Za-z]表示匹配不属于这个合集的字符。
最新文章
- Vertica 分区表设计
- js 递归学习
- 关于winform中*.exe.config中的appSettings的节点的读取与修改
- 错误:document.getElementById(";userForm";).submit();Object is not a function
- qsort函数详解
- Unity摄像机的正交视图与透视图
- uboot完全手册---14
- android 反编译 逆向工具整理
- 【原】K3Cloud平台开发之Python插件
- lua实现多继承
- Game
- 【二十七】php之绘图技术(gd、jpgraph、短信随机验证码)
- ant安装和验证
- POJ 2185 Milking Grid [KMP]
- Linux中SVN的备份与恢复
- Python format 格式化函数
- SpriteBuilder中使用TrueType字体的一些障碍
- webservice接口和http接口介绍---更新版
- js文字从左边飞入效果
- 读取Excel表格中数据原型