1.认识网页结构和基本爬虫原理

1.1.网页的组成:

  1. HTML(超文本标记语言)
  2. CSS(层叠样式表)
  3. JScript(活动脚本语言)
    首先,先写一个简单的html,大致了解一下。在txt中编写如下内容,然后将文件后缀.txt直接改为.html,最后运行即可。
<html>
<head>
<title>python爬虫学习笔记</title>
</head>
<body>
	<div>
		<p>python爬虫学习笔记</p>
	</div>
	<div>
	<ul>
		<li> <a href ="https://www.csdn.net">CSDN网站</a></li>
		<li> <a href ="https://www.baidu.com">百度网站</a></li>
	</ul>
	</div>
</body>
</html>

如果想了解更多,随便打开一个网页,然后【ctrl+U】打开源码。
在学习爬虫之前,熟悉网页的基本概念非常重要。:关于html基本知识参考网站

1.2.爬虫的基本原理
爬虫其实就是一个请求(request)和响应(response)的过程。请求(request):即向服务器发送访问请求。响应(response):即服务器收到用户的请求后,会验证请求的有效性,然后向用户(客户端)发送响应的内容。
网页请求(request)的方式有两种:get方式和post方式。

猜你喜欢

转载自blog.csdn.net/lanlan0923/article/details/84445215
今日推荐