html文档转为xml文档

  public string html转为xml(string 字符串)
    {
        if (字符串 == string.Empty) return string.Empty;
        string 结果字符串 = 字符串;
        string 替换字符串;
        Regex 正则;
        //1 <\/name>替换为</name>
        // 正则 = new Regex(@"<\s*[^<>]+\s*/\s*(\w+)\s*>");
        //  替换字符串 = @"</$1>";
        //  结果字符串 = 正则.Replace(结果字符串, 替换字符串);
        //1 非闭合标签<META >,将>替换成></META>
        正则 = new Regex(@"(<\s*META[^>]*)(>)");
         替换字符串 = @"$1></META$2";
        结果字符串 = 正则.Replace(结果字符串, 替换字符串);
        //2 非标准闭合标签<name />,将/>替换成></name>
        正则 = new Regex(@"(?<头><\s*(?<标签>\w+)\b[^>]*)/\s*>");
        替换字符串 = @"${头}></${标签}>";
        结果字符串 = 正则.Replace(结果字符串, 替换字符串);
        //3   替换成 &nbsp;
        正则 = new Regex(@" ");
        替换字符串 = @"&nbsp;";
        结果字符串 = 正则.Replace(结果字符串, 替换字符串);
       
        //4 <script> * </script> 替换为空白
        正则 = new Regex(@"<\s*script\b[^>]*>[\s\S]*?<\s*/\s*script\s*>");
        替换字符串 = @" ";
        结果字符串 = 正则.Replace(结果字符串, 替换字符串);
        return 结果字符串;
    }

猜你喜欢

转载自blog.csdn.net/qq_33534723/article/details/78937761