边做爬虫边学html

在写爬虫的同时,我觉得读别人写的html文件是一个很好的学html的方法
因为我html只会最基础的语法,所以看到什么没见过的代码都会记下来

  •  

这个东西其实就是html中的空格,因为在代码区多敲空格可能被省略,因此用 占位
同时, 具体代表的空格长度是可调的
我爬的盗版小说网站就用了四个 但是在那个网页里一个 代表一个汉字的长度,就导致小说看起来特别诡异
实际上,如果在web.config中

<globalization 
              requestEncoding="gb2312" 
            responseEncoding="gb2312"  
  />

就是半个汉字,而如果是

<globalization 
            requestEncoding="utf-8" 
            responseEncoding="utf-8" 
   />

或是

<meta http-equiv="content-type" content="text/html; charset=UTF-8">

就相当于一个汉字
也就是,&nbsp;的长短受编码方式影响
于是,我们希望稳定的,长度不变的空格表示实体
这包括
&ensp;
它叫“半角空格”,全称是En Space,en是字体排印学的计量单位,为em宽度的一半。占据的宽度正好是1/2个中文宽度,而且基本上不受字体影响。
&emsp;
它叫“全角空格”,全称是Em Space。其占据的宽度正好是1个中文宽度,而且基本上不受字体影响。

猜你喜欢

转载自blog.csdn.net/weixin_43263346/article/details/85175045