定界符
界定符用来标识正则表达式的开始和结束位置,可以用斜杆(/)、花括号({})、#,笔者习惯用斜杆来标识正则表达式的位置,具体用那个看个人开发习惯。
可见原子
看得见的元素,如字母、数字、符号等。
不可见原子
看不见的元素、如空格、换行、制表符。
原子集合
. | 匹配除换行符之外的任意字符 |
\d | 匹配任意一个十进制数字,[0-9] |
\D | 匹配任意一个非十进制数字,[^0-9] |
\s | 匹配一个不可见原子,[\f\n\r\t\v] |
\S | 匹配一个可见原子,[^\f\n\r\t\v] |
\w | 匹配任意一个数字、字母或下划线,[0-9a-zA-Z] |
\W | 匹配任意一个非数字、字母或下划线,[^0-9a-zA-Z] |
原子筛选
| | 匹配两个或者多个分支 |
[ ] | 匹配方括号中的任意一个原子 |
[^] | 匹配除方括号中的原子之外的任意字符 |
量词
{n} | 表示前面的原子恰好出现次 |
{n,} | 表示前面的原子最少出现n次 |
{n,m} | 表示前面的原子最少出现n次,最多出现m次 |
* | 匹配0、1或者多次之前的原子{0,} |
+ | 匹配1次或者多次其之前的原子{1,} |
? | 匹配0次或者1次其之前的原子,{0,1} |
边界控制
^ | 匹配字符串开始的位置 |
$ | 匹配字符串结尾的位置 |
模式单元
() | 将括号内的字符作为一个整体进行匹配 |
修正模式
U | 懒惰匹配 |
i | 忽略英文字母大小写 |
x | 忽略空白 |
s | 让 ‘.’ 匹配包括换行符在内的所有字符 |
常用字符串函数解析
int preg_match ( string $pattern
, string $subject
[, array &$matches
[, int $flags
= 0 [, int$offset
= 0 ]]] )
pattern
要搜索的模式,字符串类型。
subject
输入字符串。
matches
如果提供了参数matches,它将被填充为搜索结果。 $matches[0]将包含完整模式匹配到的文本, $matches[1]
将包含第一个捕获子组匹配到的文本,以此类推。
flags
flags可以被设置为以下标记值:
PREG_OFFSET_CAPTURE
int preg_match_all ( string $pattern
, string $subject
[, array &$matches
[, int $flags
= PREG_PATTERN_ORDER
[, int $offset
= 0 ]]] )
pattern
要搜索的模式,字符串形式。
subject
输入字符串。
matches
多维数组,作为输出参数输出所有匹配结果, 数组排序通过flags指定。
flags
可以结合下面标记使用(注意不能同时使用PREG_PATTERN_ORDER和 PREG_SET_ORDER):
PREG_PATTERN_ORDER
结果排序为$matches[0]保存完整模式的所有匹配, $matches[1] 保存第一个子组的所有匹配,以此类推。
mixed preg_replace ( mixed $pattern
, mixed $replacement
, mixed $subject
[, int $limit
= -1 [, int &$count
]] )
pattern
要搜索的模式。可以使一个字符串或字符串数组。
可以使用一些PCRE修饰符。
replacement
用于替换的字符串或字符串数组。如果这个参数是一个字符串,并且pattern 是一个数组,那么所有的模式都使用这个字符串进行替换。如果pattern和replacement 都是数组,每个pattern使用replacement中对应的 元素进行替换。如果replacement中的元素比pattern中的少, 多出来的pattern使用空字符串进行替换。
replacement中可以包含后向引用\\n 或$n,语法上首选后者。 每个 这样的引用将被匹配到的第n个捕获子组捕获到的文本替换。 n 可以是0-99,\\0和$0代表完整的模式匹配文本。 捕获子组的序号计数方式为:代表捕获子组的左括号从左到右, 从1开始数。如果要在replacement 中使用反斜线,必须使用4个("\\\\",译注:因为这首先是php的字符串,经过转义后,是两个,再经过 正则表达式引擎后才被认为是一个原文反斜线)。
当在替换模式下工作并且后向引用后面紧跟着需要是另外一个数字(比如:在一个匹配模式后紧接着增加一个原文数字), 不能使用\\1这样的语法来描述后向引用。比如, \\11将会使preg_replace() 不能理解你希望的是一个\\1后向引用紧跟一个原文1,还是 一个\\11后向引用后面不跟任何东西。 这种情况下解决方案是使用${1}1。 这创建了一个独立的$1后向引用, 一个独立的原文1。
当使用被弃用的 e 修饰符时, 这个函数会转义一些字符(即:'、"、 \ 和 NULL) 然后进行后向引用替换。当这些完成后请确保后向引用解析完后没有单引号或 双引号引起的语法错误(比如: 'strlen(\'$1\')+strlen("$2")')。确保符合PHP的 字符串语法,并且符合eval语法。因为在完成替换后, 引擎会将结果字符串作为php代码使用eval方式进行评估并将返回值作为最终参与替换的字符串。
subject
要进行搜索和替换的字符串或字符串数组。
如果subject是一个数组,搜索和替换回在subject 的每一个元素上进行, 并且返回值也会是一个数组。
limit
每个模式在每个subject上进行替换的最大次数。默认是 -1(无限)。
count
如果指定,将会被填充为完成的替换次数。
mixed preg_filter ( mixed $pattern
, mixed $replacement
, mixed $subject
[, int $limit
= -1 [, int &$count
]] )
如果subject是一个数组,返回一个数组, 其他情况返回一个字符串。
如果没有找到匹配或者发生了错误,当subject是数组 时返回一个空数组,其他情况返回NULL。
array preg_grep ( string $pattern
, array $input
[, int $flags
= 0 ] )
pattern
要搜索的模式, 字符串形式.
input
输入数组.
flags
如果设置为PREG_GREP_INVERT, 这个函数返回输入数组中与 给定模式pattern不匹配的元素组成的数组.
array preg_split ( string $pattern
, string $subject
[, int $limit
= -1 [, int $flags
= 0 ]] )
pattern
用于搜索的模式,字符串形式。
subject
输入字符串
limit
如果指定,将限制分隔得到的子串最多只有limit个,返回的最后一个 子串将包含所有剩余部分。limit值为-1, 0或null时都代表"不限制", 作为php的标准,你可以使用null跳过对flags的设置。
flags
flags 可以是任何下面标记的组合(以位或运算 | 组合):
PREG_SPLIT_NO_EMPTY
如果这个标记被设置, preg_split() 将仅返回分隔后的非空部分。
PREG_SPLIT_DELIM_CAPTURE
如果这个标记设置了,用于分隔的模式中的括号表达式将被捕获并返回。
PREG_SPLIT_OFFSET_CAPTURE
如果这个标记被设置, 对于每一个出现的匹配返回时将会附加字符串偏移量. 注意:这将会改变返回数组中的每一个元素, 使其每个元素成为一个由第0 个元素为分隔后的子串,第1个元素为该子串在subject 中的偏移量组成的数组。
string preg_quote ( string $str
[, string $delimiter
= NULL
] )
str
输入字符串
delimiter
如果指定了可选参数 delimiter,它也会被转义。这通常用于 转义PCRE函数使用的分隔符。 / 是最常见的分隔符。