python3 爬虫

一.html

1.网页由代码构成. 这种代码我们称之为HTML,

2.HTML 是一种浏览器(Chrome, Safari, IE, Firefox等)看得懂的语言, 浏览器能将这种语言转换成我们用肉眼看到的网页

3.除了 HTML, 一同构建多彩/多功能网页的组件还有 CSS 和 JavaScript

4.对于网页,右击鼠标,点击“显示源”(view page source)等差不多意思的选项进入HTML代码

5.在 HTML 中, 基本上所有的实体内容, 都会有个 tag 来框住它. 而这个被 tag 住的内容, 就可以被展示成不同的形式, 或有不同的功能.

6.主体的 tag 分成两部分, headerbody. 在 header 中, 存放这一些网页的网页的元信息, 比如说 title, 这些信息是不会被显示到你看到的网页中的.

信息大多数时候是给浏览器看, 或者是给搜索引擎的爬虫看.

7.HTML 的第二大块是 body, 这个部分才是你看到的网页信息. 网页中的 heading, 视频, 图片和文字等都存放在这里. 这里的 <h1></h1> tag 就是主标题,

我们看到呈现出来的效果就是大一号的文字. <p></p> 里面的文字就是一个段落. <a></a>里面都是一些链接. 所以很多情况, 东西都是放在这些 tag 中的.

猜你喜欢

转载自www.cnblogs.com/yu-liang/p/9019545.html