Notas de leitura de "A Beleza do Código". O
código-fonte vem do Capítulo 9 do livro "A Prática da Programação"
e é usado para processar os seguintes modelos.
personagem significado .(Ponto) Combine qualquer caractere único ^ Corresponde ao início da string de entrada $ Corresponde ao final da string de entrada * Corresponde a zero ou mais ocorrências do caractere anterior
/* match: search for regexp anywhere in text */
int match(char *regexp, char *text)
{
if (regexp[0] == '^')
return matchhere(regexp+1, text);
do { /* must look even if string is empty */
if (matchhere(regexp, text))
return 1;
} while (*text++ != '\0');
return 0;
}
/* matchhere: search for regexp at beginning of text */
int matchhere(char *regexp, char *text)
{
if (regexp[0] == '\0')
return 1;
if (regexp[1] == '*')
return matchstar(regexp[0], regexp+2, text);
if (regexp[0] == '$' && regexp[1] == '\0')
return *text == '\0';
if (*text!='\0' && (regexp[0]=='.' || regexp[0]==*text))
return matchhere(regexp+1, text+1);
return 0;
}
/* matchstar: search for c*regexp at beginning of text */
int matchstar(int c, char *regexp, char *text)
{
do { /* a * matches zero or more instances */
if (matchhere(regexp, text))
return 1;
} while (*text != '\0' && (*text++ == c || c == '.'));
return 0;
}
int match(char *regexp, char *text)
Chame esta função para correspondência de expressões regulares.
O parâmetro regexp é uma expressão regular e o texto do parâmetro é a string a ser correspondida.
int matchhere(char *regexp, char *text)
Esta função determina se o primeiro caractere da expressão regular corresponde ao primeiro caractere do texto e retorna 0 se falhar. O resultado é avançado para o próximo caractere da expressão regular e para o próximo caractere do texto para continuar a correspondência. Se o segundo caractere da expressão regular for *, a função a seguir será chamada para determinar se o fechamento corresponde.
int matchstar(int c, char *regexp, char *text)
Corresponde ao carácter repetido c até que os caracteres restantes do texto sejam correspondidos com sucesso.Se os caracteres restantes do texto não corresponderem até ao final,é devolvido 0. A estrutura do-while é usada porque * também pode corresponder a 0.
Eu mesmo tentei alguns exemplos e descobri que esse algoritmo busca a correspondência mais rápida. Por exemplo, se a expressão regular for aaa.* e o texto a ser correspondido for aaaabaaa, então o texto a ser correspondido terminará após as três primeiras correspondências.
É realmente um código simplificado, mas poderoso. Recomenda-se definir pontos de interrupção para depurar você mesmo, dar uma olhada no processo e aprofundar seu entendimento. (Na verdade, é porque só consigo ler sozinho, mas não consigo escrever. Não consigo escrever muitas análises...)