我误解了String#substring方法

本文链接： https://blog.csdn.net/lidelin10/article/details/102764626

我们一般使用substring进行字符串的截取操作，特别是模式匹配的时候，我们会获取匹配到的start和end，然后调用str.substring(start, end)截取[start, end)范围的子串。最近我在做关于敏感词过滤的业务，我想获取字符串中存在字典中的正向最长字符串匹配，然后进行脱敏处理，部分代码如下：

public CharSequence searchNextMatch(String sourceText, int start, int end) {
    TireTreeFindResult findResult = tireTree.find(sourceText, start, end);//获取匹配的结果，结果会包含匹配的起始下标和结束下标(exclude)
    return sourceText.substring(findResult.getMatchTextStart(), findResult.getMatchTextEnd());
}

我使用了String的substring方法返回字符串结果，这个其实没有太大问题。当时就看了一下substring的源码，发现他是通过substring方法先是拷贝了char数组，然后重新用该char数组创建了一个String对象，我一直认为substring会跟subList一样返回一个字符串视图，但是事实并非如此。所以产生了一些问题：这样子实现不会很慢吗？为什么Java api选择这样实现？

我去网上查了一下substring，果然找到了一点蛛丝马迹。substring在jdk7之前是通过视图实现的，但是到了jdk7，就修改成了创建字符数组副本的实现。很显然，新修改的是效率比较低的，但是这样修改是有一定考虑的。

我们如果通过爬虫获取到了一个页面的html源码htmlString，然后通过正则匹配和substring获取到满足匹配的一个List<String>，List<String>里所有字符串指向的字符数组是htmlString.value，我们在获取到需要的信息后本应该是要丢弃htmlString的，让JVM回收掉，但是由于List<String>中所有元素都引用着htmlString.value，导致该字符串大对象无法被回收，这里就导致了内存泄漏。

有时候为了效率考虑，我们可以通过CharSequence自己实现一个视图类,代码如下：

/**
* 使用视图减少substring的开销
*/
private static class SubstringView implements CharSequence{
    private String sourceString;
    private int start;
    private int end;
    private int length;


    public SubstringView(String sourceString, int start, int end) {
        checkBounds(sourceString, start, end);
        this.sourceString = sourceString;
        this.start = start;
        this.end = end;
        this.length = end - start;
    }


    @Override
    public int length() {
        return this.length;
    }


    @Override
    public char charAt(int index) {
        if (start + index > end){
            throw new IndexOutOfBoundsException(String.valueOf(index));
        }
        return sourceString.charAt(start + index);
    }


    @Override
    public CharSequence subSequence(int start, int end) {
        return new SubstringView(sourceString, start, end);
    }


    private void checkBounds(String string, int start, int end){
        if (start > end){
            throw new IllegalArgumentException("start > end");
        }


        if (end > string.length()){
            throw new IllegalArgumentException("end is greater than source string length");
        }
    }
}

需要注意的是，String虽然提供CharSequence作为参数的api，但是内部可能只是调用了toString方法，而对于实现CharSequence的类，跟普通类一样toString默认实现为：全类名@hashCode

String str1 = "1234abc111";
String str2 = "abc";
CharSequence sequence = new SubstringView(str1, 4, 4 + 3);
System.out.println(str2.contains(sequence));

这个示例输出为false，原因就是contains内部的判断逻辑为：indexOf(s.toString()) > -1，调用了SubstringView#toString，toString我们是没有进行实现的。那我们怎么实现toString方法呢？要想实现toString方法只能调用String#substring方法，这就没有办法了。

参考：

这篇博文讲述得很详细，博主从数组复用安全性、旧新实现的对比角度进行分析，详见：https://www.cnblogs.com/antineutrino/p/4213268.html
java.lang.String#substring源码
java.lang.StringBuilder#substring源码

我误解了String#substring方法

猜你喜欢