【算法无用系列】字符串匹配那些事——BF算法&RK算法


前言

        在开发时遇到过太多字符串匹配的情况,但是都是用自带的工具类,只求完成功能即可。面试的时候也曾留意过indexOf的原理,但是,并不曾思考过原理。久而久之也就忘记了,直到遇到敏感词过滤这个功能,indexOf不能满足我的需求,寻求其他的字符匹配的思路,脑海中却一片空白,欲哭无泪…
        可能是原本就应该知道的知识,却一直没有装进脑海中,无奈,欠下的债,迟早要还的,欠学的知识,迟早要补。


一、字符串匹配

1、BF算法

从最简单开始,BF算法的思路很简单,就是无脑的匹配,
在这里插入图片描述

       主串ACDBSWQ中,模式串DB,从第一位开始匹配,如果匹配不成功,则向后移动一位,再次匹配,循环即可,直到找到对应的字符串。这种方式,很简单,如果出现问题,问题定位很快,适合在较短的字符串中使用。这种算法在开发的时候经常遇到,indexOf即是这种方式实现的。

2、RK算法

       BF算法的弊端很明显,每次移动位置,都需要进行字符串对比,如果主串有x个字符,模式串有y个字符,则可以认为模式串要在x-y+1个字符串中找到和自己匹配的字符串,也就是6个字符串中挨个匹配。
在这里插入图片描述
       字符匹配时要逐个匹配,即在第一步匹配AC时,要匹配A和D能不能对应上,C和B能不能对应上,这个过程是比较麻烦的。RK算法通过散列函数对此进行了优化。
       RK算法是对BF算法的升级,通过散列函数计算出每个要匹配字符串的hash值,最后通过数字进行匹配(暂不考虑hash碰撞),通过数字判断是否相等是很快的。


BF算法和RK算法相对比较简单,可以在短句中使用,方便问题的定位。 参考文献:

BF算法维基百科
RK算法维基百科

猜你喜欢

转载自blog.csdn.net/qq_30285985/article/details/109184891