glob 模式匹配简介

转自：http://www.zybang.com/question/62a9c6f4f875fc3cab6dead25a3a7ad8.html

英文原版地址：http://www.man7.org/linux/man-pages/man7/glob.7.html

个人观点：最近项目需要用到了模式匹配路径下的文件名的功能，网上的资料几乎都是一样的，还是看man手册里写的比较全面。

我使用了系统函数fnmatch，第三个参数写得是0，实现了* ？【】的模式匹配，和正则表达式还差很多，但是这个功能也比较不错了，

在网上找了源代码，有两份，一份是apple的，另一份是linux的。

apple源代码：http://www.man7.org/linux/man-pages/man3/glob.3.html

linux源代码详见coreutils-8.25/lib/fnmatch.c以下粘出部分代码：

int
fnmatch (const char *pattern, const char *string, int flags)
{
# if HANDLE_MULTIBYTE
#  define ALLOCA_LIMIT 2000
  if (__builtin_expect (MB_CUR_MAX, 1) != 1)
    {
      mbstate_t ps;
      size_t patsize;
      size_t strsize;
      size_t totsize;
      wchar_t *wpattern;
      wchar_t *wstring;
      int res;

      /* Calculate the size needed to convert the strings to
         wide characters.  */
      memset (&ps, '\0', sizeof (ps));
      patsize = mbsrtowcs (NULL, &pattern, 0, &ps) + 1;
      if (__builtin_expect (patsize != 0, 1))
        {
          assert (mbsinit (&ps));
          strsize = mbsrtowcs (NULL, &string, 0, &ps) + 1;
          if (__builtin_expect (strsize != 0, 1))
            {
              assert (mbsinit (&ps));
              totsize = patsize + strsize;
              if (__builtin_expect (! (patsize <= totsize
                                       && totsize <= SIZE_MAX / sizeof (wchar_t)),
                                    0))
                {
                  errno = ENOMEM;
                  return -1;
                }

              /* Allocate room for the wide characters.  */
              if (__builtin_expect (totsize < ALLOCA_LIMIT, 1))
                wpattern = (wchar_t *) alloca (totsize * sizeof (wchar_t));
              else
                {
                  wpattern = malloc (totsize * sizeof (wchar_t));
                  if (__builtin_expect (! wpattern, 0))
                    {
                      errno = ENOMEM;
                      return -1;
                    }
                }
              wstring = wpattern + patsize;

              /* Convert the strings into wide characters.  */
              mbsrtowcs (wpattern, &pattern, patsize, &ps);
              assert (mbsinit (&ps));
              mbsrtowcs (wstring, &string, strsize, &ps);

              res = internal_fnwmatch (wpattern, wstring, wstring + strsize - 1,
                                       flags & FNM_PERIOD, flags);

              if (__builtin_expect (! (totsize < ALLOCA_LIMIT), 0))
                free (wpattern);
              return res;
            }
        }
    }

# endif /* HANDLE_MULTIBYTE */

  return internal_fnmatch (pattern, string, string + strlen (string),
                           flags & FNM_PERIOD, flags);
}

以下是从网上转载的，对man手册中glob的翻译：

GLOB

Section: \7Linux Programmer's Manual\7 (7)
Updated: 12 June
1998
Index
NAME
glob - 形成路径名称
描述 (DESCRIPTION)
很久以前在 UNIX V6 版中有一个程序 /etc/glob 用来展开通配符模板.
不久以后它成为 shell 内建功能. 现在人们开发了类似的库函数 glob(3), 让用户程序实现同样的功能.
此规则遵循 (POSIX 1003.2, 3.13).
通配符匹配 (WILDCARD MATCHING)
包含 '?', '*' 或 '[' 字符的字符串称为通配符模板(wildcard
pattern). 形成路径名(globbing) 指一种操作, 把通配符模板展开为匹配该串的路径名. 匹配定义为:
不在方括弧中的 '?' 匹配任意单个字符.
不在方括弧中的 '*' 匹配任意字符串, 包括空串.
字符集 (Character classes)
对于表达式 `[...]', 如果在第一个 '['符后面出现的第一个字符不是
'!', 则该表达式匹配任意一个在 `[...]'内出现的字符. 方括弧内不能有空串, 因此 ']' 可以作为第一个字符出现在
方括弧内. (像这样, '[][!]' 匹配下列三个字符中的任意一个, '[', ']' 和 '!'.)
范围集 (Ranges)
字符集有一个特例: 用 '-' 分开的两个字符表示一个范围集. (像这样, `[A-Fa-f0-9]'
等于 `[ABCDEFabcdef0123456789]'.) 把 '-' 放到方括弧内的开头或最后可以获得它的本意. (像这样,
`[]-]' 匹配 ']'和'-' 中任意一个. 而 `[--/]' 匹配 `-', `.' 和`/'中任意一个.)
补集 (Complementation)
表达式 '[!...]' 表示一个字符, 该字符不匹配方括弧内去掉开头 '!' 后的
表达式. (像这样, `[!]a-]' 匹配除了 ']', 'a' 和 '-' 的任意一个字符.)
要去掉 '?', '*' 和 '[' 的特殊含义, 可以通过前面加一个反斜杠; 或者在 shell 命令行中, 通过引号来引用
这些字符. 在方括弧内这些字符显露出本意, 所以, '[[?*\]' 匹配这四个字符中的一个: '[', '?', '*', '\'.
路径名 (PATHNAME)
形成路径名功能应用于路径中的每一个成员部分. 路径中的 '/' 不能被通配符 '?' 或
'*', 或范围集如 '[.-0]' 匹配. 范围集不能直接包含 '/', 否则导致语法错误.
如果待匹配的文件名以'.'开头, 那么这个 '.' 字符必须直接给出. (比如说, 用 'tar c .' 会更好.)
空列表 (EMPTY LISTS)
上述的简单优雅规则, 把通配符模板展开为匹配的路径名, 来源于最初的 UNIX 定义. 它
允许展开出空串, 例如 xv -wait 0 *.gif *.jpg
这里可能没有 *.gif 文件 (而且不算错误).
然而, POSIX 要求句法错误或路径名列表为空时, 保留通配符模板不变. (译注: 即不展开.)
在 bash 中可以通过设置 allow_null_glob_expansion=true 把它强置为传统的
风格. (其他地方也有类似的问题, 例如, 老式的语句是
rm `find . -name "*~"`
新的写法为
rm -f nosuchfile `find . -name "*~"`
以避免由于空参数调用 rm 而产生错误信息.)
注意 (NOTES)
正规表达式 (Regular expressions)
注意, 通配符模板不是正规表达式, 尽管它们有点象. 首先, 它匹配文件名,
而不是正文; 其次, 规则不一样, 例如正规表达式里的 '*' 代表零个或多个前面内容的重复.
正规表达式的方括弧表达式用 '^' 引导取反操作, (而不是 '[!...]'). POSIX 声明, 在通配符模板中, '[^...]'
未做定义.
字符集和国际化 (Character classes and Internationalization )
当然, 范围集最初指
ASCII的范围, 因此 '[ -%]' 意思是 '[ !"#$%]',
一些 UNIX实现把这个归纳为: 范围 X-Y 指 X的编码到 Y的编码之间的编码字符. 可是, 这要求用户知道他们本地系统的
字符编码, 此外, 如果本地的字母表顺序和字符集顺序不对应, 那就更不方便了.
因此, POSIX 对通配符模板和正规表达式的方括弧表达法作了重大扩展, 上面我们知道了方括弧表达式中的三个类型, 它们是
(i) 取补集 (ii) 直接列出的单个字符和 (iii) 范围集.
POSIX 对范围集在国际化方面作了更有力的说明, 并且增加了三个类型:
(iii) 范围 X-Y 由 X 和 Y 之间所有的字符组成 (包括X和Y), X 和 Y 的当前编码序列由当前场合的 LC_COLLATE
分类定义.
(iv) 命名字符集, 象
[:alnum:] [:alpha:] [:blank:] [:cntrl:]
[:digit:] [:graph:] [:lower:] [:print:]
[:punct:] [:space:] [:upper:] [:xdigit:]
因此可以用 '[[:lower:]]' 代替 '[a-z]', 它在丹麦语里同样有效, 虽然丹麦的字母表里 'z' 后面还有
三个字母. 这些字符集由当前场合的 LC_CTYPE 分类定义.
(v) 符号对映, 象 '[.ch.]' 或 '[.a-acute.]', 在 '[.' 和 '.]' 之间的字符串是定义在当前场合的
对映元素. 注意这可以是多字符元素.
(vi) 等类表达式, 象 '[=a=]', 在 '[=' 和 '=]' 之间的字符串是任意等类中的对映元素, 它定义在当前场合.
例如, '[[=a=]]' 可以等同于 `[a徉溻]' (警告: 这里有 Latin-1 字符), 也就是
`[a[.a-acute.][.a-grave.][.a-umlaut.][.a-circumflex.]]'.
SEE ALSO
sh(1), glob(3), fnmatch(3),
locale(7), regex(7)

glob 模式匹配简介

猜你喜欢