js 之正则表达式

一、REGEXP对象

1.字面量

2.构造函数

字面量

字面量是直接通过/.../创建RegExp对象实例。

var reg = /\bis\b/ var text = 'He is a boy.' var result = text.replace(reg, 'IS') // 'He IS a boy.'

构造函数

构造函数版本看起来比较像Java中创建实例的样子，但是正如不推荐使用new Array而是使用[]创建数组一样，推荐使用字面量创建RegExp对象实例。

 
  var reg = new RegExp('\\bis\\b', 'g')
var text = 'He is a boy. It is a dog'

var result = text.replace(reg, 'IS')    // 'He IS a boy. It IS a dog'

修饰符

在正常情况下，正则匹配到第一个匹配项则停止，并且默认大小写敏感，如果想修改默认选项，则需要修饰符。值得一提，修饰符可以同时使用，比如我想要全局大小写不敏感，则同时在正则末尾加上gi

g：global 全文搜索

i：ignore case 忽略大小写

m：multiple lines 多行搜索

var reg = /\bis\b/gi
var text = 'He is a boy. It Is a dog'

var result = text.replace(reg, 0)   // 'He 0 a boy. It 0 a dog'

二、元字符和字符类

元字符

正则表达式由两种基本字符类型组成：

1.原义（正常）文本字符：代表本身含义的字符，如：a、b、c、1、2、3等。

2.元字符：元字符是在正则表达式中有特殊含义的非字母字符，如\b代表单词边界，可以是单词的开头或结尾。

常见的符号元字符：

*+?$^.|\(){}[]

字符类

一般情况下，正则表达式一个字符对应字符串一个字符。比如，表达式ab\t的含义就是ab加上一个\t（水平制表符）。

但是，很多时候，我们不想匹配某个字符，而想匹配某类字符。此时，我们可以使用元字符[]来构建一个简单的类。

所谓类是指符合某些特性的对象，一个泛指，而不是特指某个字符。表达式[abc]把字符a或b或c归为一类，可以匹配这类字符。

示例：

 
   let reg = /[abc]/g

let text = 'a1b2c3d4e5'

text.replace(reg, 'X')  // X1X2X3d4e5

可以发现，当正则表达式匹配到a或b或c时，自动替换为X

字符类取反

很多时候回碰到这么一种情况，即不想匹配某些字符，其他都匹配。此时，可以使用字符类取反——使用元字符`^创建反向类，即不属于某类的内容。

表达式[^abc]表示不是字符a或b或c的内容。

示例：

 
   let reg = /[^abc]/g

let text = 'a1b2c3d4e5'

text.replace(reg, 'X')  // aXbXcXXXXX

结果表明，当表达式匹配到a或b或c时，不进行处理，其余的字符都转换为了X

三、范围类

在使用正则表达式时，很多时候，我们会想要匹配a~z的所有字母，很多人想到，可以使用字符类[abcdefg...z]，但是，这种方法需要输入所有需要匹配的字母。那么，有没有简单点的方法呢？

所幸，正则表达式提供了范围类，范围类可以让我们使用[a-z]来连接两个字符表示从a到z的任意字符。

基本用法

let text = 'a1b2d3x4z5'

let reg = /[a-z]/g

text.replace(reg, 'Q')  // Q1Q2Q3Q4Q5

tips：值得注意的是，范围类是闭区间，即：[a-z]包含a和z

范围类的连写

使用范围类有一个小技巧：在[]组成的类内部是可以连写的，比如：[a-zA-Z]

let text = 'a1B2d3X4Z5'

let reg = /[a-zA-Z]/g

text.replace(reg, 'Q')  // Q1Q2Q3Q4Q5

四、预定义类

正则表达式提供预定义类来匹配常见的字符类

字符	等价类	含义
.	[^\r\n]	除了回车符和换行符以外的所有字符
\d	[0-9]	数字字符
\D	[^0-9]	非数字字符
\s	[\t\n\x0B\f\r]	空白符
\S	[^\t\n\x0B\f\r]	非空白符
\w	[a-zA-Z_0-9]	单词字符（字母、数字、下划线）
\W	[^a-zA-Z_0-9]	非单词字符

使用预定义类可以快速匹配目标，如：匹配一个ab+数字+任意字符，使用字符类、范围类需要书写大量的代码，而使用预定义类只需要这样写：

/ab\d/

边界

正则表达式还提供了几个常用的边界匹配字符

字符	含义
^	以xxx开始
$	以xxx结束
\b	单词边界
\B	非单词边界

当我们只想匹配一段话中中的部分单词而不是单词中的字母时，边界往往很有用

单词边界与非单词边界

有时，我想匹配一句话中的is单词，而不想匹配在单词中的is字母，此时，使用单词边界可以轻松解决这个问题：

let text = 'This is a boy'

let reg1 = /is/g

let reg2 = /\bis\b/g

text.replace(reg1, 'IS')    // 没有使用单词边界\b区分，结果为：ThIS IS a boy

text.replace(reg2, 'IS')    // 使用了单词边界进行区分，结果为：This IS a boy

而当我只想匹配作为单词结尾的is时，该怎么办？此时可以机智的混用单词边界与非单词边界：

let text = 'This is a boy'

let reg3 = /\Bis\b/g

text.replace(reg3, 'IS')    // ThIS is a boy

^ 和 $ —— 开始与结尾

很多使用，我们会想匹配开头或结尾的字符，使用^ 和 $可以完美的解决这个问题：

let text = '@123@abc@'

let reg1 = /@/g

text2.replace(reg1, 'Q')    // 没有使用^和$，匹配了所有的@，结果为：Q123QabcQ

let reg2 = /^@/g

text.replace(reg2, 'Q')     // 使用^匹配开头的@，结果为：Q123@abc@

let reg3 = /@$/g

text.replace(reg3, 'Q')     // 使用$匹配结尾的@，结果为：@123@abcQ

tips：实际使用中^需要写在匹配项的前方，而$需要卸载匹配项的后方

在多行的情况下使用^和$

在多行的情况下，使用m进入多行模式才能匹配到每行的开头和结尾匹配字符：

let text = '@123\n@456\n@789'

let reg1 = /^@\d/g

text.replace(reg1, 'Q')      
/*
    由于换行实际上只是一个换行符字符，在正常模式下，依然看做一段字符
    结果为：
    Q23
    @456
    @789
*/

let reg2 = /^@\d/gm

text.replace(reg2, 'Q')
/*
    添加了m进入多行模式：
    结果为：
    Q23
    Q56
    Q89
*/

五、量词

很多时候，我们需要匹配一个连续出现很多次字符的字符串，比如，我们要匹配一个连续出现20次的数字的字符串，按照之前的写法：

\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d\d

是不是感觉快疯了？很庆幸，使用正则提供的量词，我们就可以快速解决这个问题。

量词的使用方法如下：

字符	含义
?	出现零次或一次（最多出现一次）
+	出现一次或多次（至少出现一次）
*	出现零次或多次（任意次）
{n}	出现n次
{n,m}	出现n到m次
{n,}	至少出现n次

那么该如何使用量词实现之前的问题？

很简单，只需要：

\d{20}

如果想要匹配最多出现n次该怎么办？很多人会想模仿至少出现n次，写成{,n}，但是正则会直接将其当做普通字符串，只有写成{0, n}才能实现匹配至多n次。