编辑距离Edit Distance

编辑距离,又称Levenshtein距离(莱文斯坦距离也叫做Edit Distance),是指两个字串之间,由一个转成另一个所需的最少编辑操作次数,如果它们的距离越大,说明它们越是不同。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。

先创建一个矩阵,假设有两个字符串,我们的字符串的长度分别是m和n,那么,我们矩阵的维度就应该是(m+1)*(n+1).

首先是边界: 
①i==0时,即a为空,那么对应的f[0][j]的值就为j:增加j个字符,使a转化为b 
②j==0时,即b为空,那么对应的f[i][0]的值就为i:减少i个字符,使a转化为b

之后计算规则就是: 
d[i,j]=min(d[i-1,j]+1 、d[i,j-1]+1、d[i-1,j-1]+cost) 这三个当中的最小值。

其中:str1[i] == str2[j],用cost记录它,为0。否则cost记为1

用d[i-1,j]+1表示增加操作 
d[i,j-1]+1 表示删除操作 
d[i-1,j-1]+temp表示替换操作

public class Main {

	public static void main(String...str2) {
		String s1="mnkljsddd";
		String s2="jlknm";
		System.out.println(lcs(s1,s2));
	} 
	
	public static int lcs(String str1, String str2) {  
	    int len1 = str1.length();  
	    int len2 = str2.length();  
	    int c[][] = new int[len1+1][len2+1];  
	    
        //初始化边界
	    for(int i=0;i<=len1;i++) {
	    	c[i][0]=i;
	    }
	    for(int i=0;i<=len2;i++) {
	    	c[0][i]=i;
	    }
	    int cost=0;
	    for (int i = 1; i <= len1; i++) {  
	        for( int j = 1; j <= len2; j++) {  
	        	if(str1.charAt(i-1) == str2.charAt(j-1)) {
	        		cost=0;
	        	}else {
	        		cost=1;
	        	}
	        	c[i][j]=Math.min(c[i][j-1]+1, Math.min(c[i-1][j]+1, c[i-1][j-1]+cost));
	        }
	    }
	    return c[len1][len2];
	}
}

其实编辑距离也可以用最长公共子序列来算,即两个字符串较大的那个长度减去公共字子序列长度即可https://blog.csdn.net/Broken_Wave/article/details/82383808

猜你喜欢

转载自blog.csdn.net/Broken_Wave/article/details/82688829