5.4 RegExp类型
ECMAScript 通过RegExp类型来支持正则表达式;
两种创建方式:一种是字面量形式,一种是RegExp构造类型;
① 字面量
var expression = / pattern / flags ;
pattern 部分可以是任何简单或复杂的正则表达式,可以包含字符类、限定类、分组、向前查找和反向引用;
flags 部分是每个正则表达式都可以带有一或多个标志(flags)。
正则表达式支持3种标志。
g:全局模式,模式被应用于所有字符串,而非发现第一个匹配项事立即停止;
i:表示不区分大小写模式;
m:表示多行模式,即在到达一行文本末未时还会继续查找下一行中是否存在与模式匹配的项。
var pattern1 = /at/g; //匹配字符串中所有“at”实例
var pattern2 = /[bc]at/i; //匹配第一个“bat”或“cat”,不区分大小写
var pattern3 = /.at/gi; //匹配所有以at结尾的3个字符的组合,不分大小写
模式中的所有元字符都必须转义,正则表达式中的元字符包括 ( [ { \ ^ $ | ) ? * + . ] } 这些元字符在正则表达式中都有一或多种用途:
var pattern1 = /[bc]at/i; //匹配第一个"bat"或"cat",不区分大小写
var pattern2 = /\[bc\]at/i; //匹配第一个"[bc]at",不区分大小写
var pattern3 = /.at/gi; //匹配所有以"at"结尾的个字符的组合,不区分大小写
var pattern4 = /\.at/gi; //匹配所有以".at"结尾的个字符的组合,不区分大小写
//from page 104
② RegExp构造类型
接受两个参数:(要匹配的字符串模式,标志字符串);由于构造函数的模式参数是字符串,所以某些字符串要对字符串进行双重转义。元字符都必须双重转义。例如:
字面量模式 | 等价的字符串 |
---|---|
/\[bc\]at/ | "\\[bc\\]at" |
/\.at/ | "\\.at" |
/name\/age/ | "name\\/age" |
/\d.\d{1,2}/ | "\\d.\\d{1,2}" |
/\w\\hello\\123/ | "\\w\\\\hello\\\\123" |
5.4.1 RegExp 实例属性
RegExp的每个实例都有下列属性:
global :布尔值,表示是否设置了 g 标志。
ignoreCase:布尔值,表示是否设置了 i 标志;
lastIndex:整数,表示开始搜索下一个匹配项的字符位置,从0算起;
multiline:布尔值,表示是否设置了 m 标志;
source:正则表达式的字符串表示,按照字面量形式而非传入构造函数中的字符串模式返回。
var pattern1 = /\[bc\]at/i;
alert(pattern1.global); //false
alert(pattern1.ignoreCase); //true
alert(pattern1.lastIndex); //0
alert(pattern1.multiline); //false
alert(pattern1.source); //"\[bc\]at"
var pattern2 = new RegExp("\\[bc\\]at", "i");
alert(pattern2.global); //false
alert(pattern2.ignoreCase); //true
alert(pattern2.lastIndex); //0
alert(pattern2.multiline); //false
alert(pattern2.source); //"\[bc\]at"
//from page 105
5.4.2 RegExp实例方法
RegExp对象的主要方法是exec(),该方法是为捕获组设计的。接收一个参数,即要应用模式的字符串,返回包含第一个匹配项信息的数组;没有匹配项返回null。虽返回的数组是Array的实例,但包含额外两个属性:index和input。index表示匹配项在字符串中的位置,input表示应用正则表达式的字符串。
var text = "mom and dad and baby";
var pattern = /mom( and dad( and baby)?)?/gi;
var matches = pattern.exec(text);
alert(matches.index); //0
alert(matches.input); //mom and dad and baby
alert(matches[0]); //mom and dad and baby
alert(matches[1]); //and dad and baby
alert(matches[2]); //and baby
from page 106
对exce()方法而言,即使在模式中设置了全局标志(g),它每次也只会返回一个匹配项。
在不设置全局标志的情况下,在同一个字符串多次调用exec() 将是始终返回第一个匹配项的信息;
而在设置全局标志的情况下,每次调用exce() 则都会在字符串中继续查找新匹配项。
var text = "cat,bat,sat,fat";
var pattern1 = /.at/;
var matches = pattern1.exec(text);
alert(matches.index); //0
alert(matches[0]); //cat
alert(pattern1.lastIndex); //0
matches = pattern1.exec(text);
alert(matches.index); //0
alert(matches[0]); //cat
alert(pattern1.lastIndex); //0
var pattern2 = /.at/g;
var matches = pattern2.exec(text);
alert(matches.index); //0
alert(matches[0]); //cat
alert(pattern2.lastIndex); //3
matches = pattern2.exec(text);
alert(matches.index); //4
alert(matches[0]); //bat
alert(pattern2.lastIndex); //7
//from page 106
正则表达式的第二个方法是test(),它接受一个字符串参数。在模式与参数匹配的情况下返回true;否则返回false。
var text = "000-00-0000";
var pattern = /\d{3}-\d{2}-\d{4}/;
if(pattern.test(text)){
alert("The pattern was matched.")
}
//from page 107
以上用法通常出现在验证用户输入的情况下。
5.4.3 RegExp构造函数属性
RegExp属性适用于作用域中的所有正则表达式,并且基于所执行的最近一次正则表达式操作而变化。
这些属性分别有一个长属性名和一个短属性名;
属性如下:
长属性名 | 短属性名 | 说明 |
---|---|---|
input | $_ | 最近一次要匹配的字符串。opera不支持 |
lastMatch | $& | 最近一次的匹配项。opera不支持 |
lastParen | $+ | 最近一次匹配项的捕获组。opera不支持 |
leftContext | &` | input字符串中lastMatch之前的文本 |
rightContext | &' | Input字符串中lastMatch之后的文本 |
multiline | $* | 布尔值,表示是否所有表达式都使用多行模式。IE和opera不支持 |
长属性名写法:
var text = "this has been a short summer";
var pattern = /(.)hort/g;
if(pattern.test(text)){
alert(RegExp.input); //this has been a short summer
alert(RegExp.leftContext); //this has been a
alert(RegExp.rightContext); // summer
alert(RegExp.lastMatch); //short
alert(RegExp.lastParen); //s
alert(RegExp.multiline); //undefined
}
//from page 108
短属性名:
var text = "this has been a short summer";
var pattern = /(.)hort/g;
if(pattern.test(text)){
alert(RegExp.$_); //this has been a short summer
alert(RegExp["$`"]); //this has been a
alert(RegExp["$'"]); // summer
alert(RegExp["$&"]); //short
alert(RegExp["$+"]); //s
alert(RegExp["$*"]); //undefined
}
//from page 109
除了上面的属性,还有9个用于储存捕获组的构造函数属性。这些属性的语法是RegExp.$1、RegExp.$2....RegExp.$9,分别储存第一、二...和九个匹配的捕获组。
var text = "this has been a short summer";
var pattern = /(..)or(.)/g;
if(pattern.test(text)){
alert(RegExp.$1); //sh
alert(RegExp.$2); //t
}
5.4.4 模式的局限性
不支持特征如下:
a:匹配字符串开始和结尾的\A和\Z锚
b:向后查找
c:并集和交集类
d:原子组
e:Unicode支持
f:命名的捕获组
g:s(单行)和x(无间隔)模式
h:条件匹配
i:正则表达式注释