js 之正则表达式

一、REGEXP对象

1.字面量

2.构造函数

字面量

字面量是直接通过/.../创建RegExp对象实例。

var reg = /\bis\b/ var text = 'He is a boy.' var result = text.replace(reg, 'IS') // 'He IS a boy.'

构造函数

构造函数版本看起来比较像Java中创建实例的样子,但是正如不推荐使用new Array而是使用[]创建数组一样,推荐使用字面量创建RegExp对象实例。

var reg = new RegExp('\\bis\\b', 'g')
var text = 'He is a boy. It is a dog'

var result = text.replace(reg, 'IS')    // 'He IS a boy. It IS a dog'

修饰符

在正常情况下,正则匹配到第一个匹配项则停止,并且默认大小写敏感,如果想修改默认选项,则需要修饰符。值得一提,修饰符可以同时使用,比如我想要全局大小写不敏感,则同时在正则末尾加上gi

g:global 全文搜索

i:ignore case 忽略大小写

m:multiple lines 多行搜索

var reg = /\bis\b/gi
var text = 'He is a boy. It Is a dog'

var result = text.replace(reg, 0)   // 'He 0 a boy. It 0 a dog'

二、元字符和字符类

元字符

正则表达式由两种基本字符类型组成:

1.原义(正常)文本字符:代表本身含义的字符,如:a、b、c、1、2、3等。

2.元字符:元字符是在正则表达式中有特殊含义的非字母字符,如\b代表单词边界,可以是单词的开头或结尾。

常见的符号元字符:

*+?$^.|\(){}[]

字符类

一般情况下,正则表达式一个字符对应字符串一个字符。比如,表达式ab\t的含义就是ab加上一个\t(水平制表符)。

但是,很多时候,我们不想匹配某个字符,而想匹配某类字符。此时,我们可以使用元字符[]来构建一个简单的类。

所谓类是指符合某些特性的对象,一个泛指,而不是特指某个字符。表达式[abc]把字符abc归为一类,可以匹配这类字符。

示例:

let reg = /[abc]/g

let text = 'a1b2c3d4e5'

text.replace(reg, 'X')  // X1X2X3d4e5

可以发现,当正则表达式匹配到abc时,自动替换为X

字符类取反

很多时候回碰到这么一种情况,即不想匹配某些字符,其他都匹配。此时,可以使用字符类取反——使用元字符`^创建反向类,即不属于某类的内容。

表达式[^abc]表示不是字符abc的内容。

示例:

let reg = /[^abc]/g

let text = 'a1b2c3d4e5'

text.replace(reg, 'X')  // aXbXcXXXXX

结果表明,当表达式匹配到abc时,不进行处理,其余的字符都转换为了X

三、范围类

在使用正则表达式时,很多时候,我们会想要匹配a~z的所有字母,很多人想到,可以使用字符类[abcdefg...z],但是,这种方法需要输入所有需要匹配的字母。那么,有没有简单点的方法呢?

所幸,正则表达式提供了范围类,范围类可以让我们使用[a-z]来连接两个字符表示从a到z的任意字符。

基本用法

let text = 'a1b2d3x4z5'

let reg = /[a-z]/g

text.replace(reg, 'Q')  // Q1Q2Q3Q4Q5
tips:值得注意的是,范围类是闭区间,即:[a-z]包含a和z

范围类的连写

使用范围类有一个小技巧:在[]组成的类内部是可以连写的,比如:[a-zA-Z]

let text = 'a1B2d3X4Z5'

let reg = /[a-zA-Z]/g

text.replace(reg, 'Q')  // Q1Q2Q3Q4Q5

四、预定义类

正则表达式提供预定义类来匹配常见的字符类

字符 等价类 含义
. [^\r\n] 除了回车符和换行符以外的所有字符
\d [0-9] 数字字符
\D [^0-9] 非数字字符
\s [\t\n\x0B\f\r] 空白符
\S [^\t\n\x0B\f\r] 非空白符
\w [a-zA-Z_0-9] 单词字符(字母、数字、下划线)
\W [^a-zA-Z_0-9] 非单词字符

使用预定义类可以快速匹配目标,如:匹配一个ab+数字+任意字符,使用字符类、范围类需要书写大量的代码,而使用预定义类只需要这样写:

/ab\d/

边界

正则表达式还提供了几个常用的边界匹配字符

字符 含义
^ 以xxx开始
$ 以xxx结束
\b 单词边界
\B 非单词边界

当我们只想匹配一段话中中的部分单词而不是单词中的字母时,边界往往很有用

单词边界与非单词边界

有时,我想匹配一句话中的is单词,而不想匹配在单词中的is字母,此时,使用单词边界可以轻松解决这个问题:

let text = 'This is a boy'

let reg1 = /is/g

let reg2 = /\bis\b/g

text.replace(reg1, 'IS')    // 没有使用单词边界\b区分,结果为:ThIS IS a boy

text.replace(reg2, 'IS')    // 使用了单词边界进行区分,结果为:This IS a boy

而当我只想匹配作为单词结尾的is时,该怎么办?此时可以机智的混用单词边界与非单词边界:

let text = 'This is a boy'

let reg3 = /\Bis\b/g

text.replace(reg3, 'IS')    // ThIS is a boy

^ 和 $ —— 开始与结尾

很多使用,我们会想匹配开头或结尾的字符,使用^ 和 $可以完美的解决这个问题:

let text = '@123@abc@'

let reg1 = /@/g

text2.replace(reg1, 'Q')    // 没有使用^和$,匹配了所有的@,结果为:Q123QabcQ

let reg2 = /^@/g

text.replace(reg2, 'Q')     // 使用^匹配开头的@,结果为:Q123@abc@

let reg3 = /@$/g

text.replace(reg3, 'Q')     // 使用$匹配结尾的@,结果为:@123@abcQ

tips:实际使用中^需要写在匹配项的前方,而$需要卸载匹配项的后方

在多行的情况下使用^和$

在多行的情况下,使用m进入多行模式才能匹配到每行的开头和结尾匹配字符:

let text = '@123\n@456\n@789'

let reg1 = /^@\d/g

text.replace(reg1, 'Q')      
/*
    由于换行实际上只是一个换行符字符,在正常模式下,依然看做一段字符
    结果为:
    Q23
    @456
    @789
*/

let reg2 = /^@\d/gm

text.replace(reg2, 'Q')
/*
    添加了m进入多行模式:
    结果为:
    Q23
    Q56
    Q89
*/

五、量词

很多时候,我们需要匹配一个连续出现很多次字符的字符串,比如,我们要匹配一个连续出现20次的数字的字符串,按照之前的写法:

\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d

是不是感觉快疯了?很庆幸,使用正则提供的量词,我们就可以快速解决这个问题。

量词的使用方法如下:

字符 含义
? 出现零次或一次(最多出现一次)
+ 出现一次或多次(至少出现一次)
* 出现零次或多次(任意次)
{n} 出现n次
{n,m} 出现n到m次
{n,} 至少出现n次

那么该如何使用量词实现之前的问题?

很简单,只需要:

\d{20}

如果想要匹配最多出现n次该怎么办?很多人会想模仿至少出现n次,写成{,n},但是正则会直接将其当做普通字符串,只有写成{0, n}才能实现匹配至多n次。

 

猜你喜欢

转载自www.cnblogs.com/canghaiyimeng/p/9268772.html
今日推荐