版权声明: https://blog.csdn.net/qq_34246164/article/details/84728896
本文主要介绍网页中的信息在哪里,怎么定位信息
当打开一个网页的时候,通常会看到各种各样的信息,比如淘宝,会看到各种商品的信息,比如商品的名称,价格等。但是这些信息是包含在哪里,爬虫又该怎么获取呢?这个时候就要用到网页的源代码。接下来以猫眼电影为例,一起来看下怎么查看网页的源代码,并查看这些信息是怎么保存的。
打开猫眼电影,找到其榜单如下:
那么对应的网页的源代码是什么样的呢?让我们右键单击查看源代码,就可以看到对应的信息,如下:
<dd>
<i class="board-index board-index-2">2</i>
<a href="/films/42964" title="毒液:致命守护者" class="image-link" data-act="boarditem-click" data-val="{movieId:42964}">
<img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
<img data-src="https://p0.meituan.net/movie/363e3a7e614d29b2847ff4e62afcd3f42168651.jpg@160w_220h_1e_1c" alt="毒液:致命守护者" class="board-img" />
</a>
<div class="board-item-main">
<div class="board-item-content">
<div class="movie-item-info">
<p class="name"><a href="/films/42964" title="毒液:致命守护者" data-act="boarditem-click" data-val="{movieId:42964}">毒液:致命守护者</a></p>
<p class="star">
主演:汤姆·哈迪,米歇尔·威廉姆斯,里兹·阿迈德
</p>
<p class="releasetime">上映时间:2018-11-09</p> </div>
<div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">3</i></p>
</div>
</div>
</div>
</dd>
比如,我们想找毒液这部电影的信息在html中如何保存的,那么可以按下 ctrl + f 调出搜索框, 输入 毒液 便可以定位到毒液的信息。通过分析,可以看到 毒液 电影的信息是包含在标签为<dd>里面, 如果我们查看更多的电影信息的话,我们会看到每一部电影信息都是包含在<dd>....<\dd>标签里面的。
通过上面的例子, 可以看到从网页中看到的信息都是包含在一个叫做 html 的文件的标签里面的。查看网页源代码的方式是右键 --> 查看源代码 , 想要定位需要的信息,可以按下 ctrl + f 输入想要搜索的信息即可。
下一篇文章介绍,python爬虫系列——requests , 将会介绍怎么使用requests 将包含信息的html 文件获取到本地。
这个系列文章也会在微信公众号,同步更新,欢迎关注。