python 爬虫系列-信息在哪里?

版权声明: https://blog.csdn.net/qq_34246164/article/details/84728896

         本文主要介绍网页中的信息在哪里,怎么定位信息

         当打开一个网页的时候,通常会看到各种各样的信息,比如淘宝,会看到各种商品的信息,比如商品的名称,价格等。但是这些信息是包含在哪里,爬虫又该怎么获取呢?这个时候就要用到网页的源代码。接下来以猫眼电影为例,一起来看下怎么查看网页的源代码,并查看这些信息是怎么保存的。

        打开猫眼电影,找到其榜单如下:

那么对应的网页的源代码是什么样的呢?让我们右键单击查看源代码,就可以看到对应的信息,如下:

 <dd>
                        <i class="board-index board-index-2">2</i>
    <a href="/films/42964" title="毒液:致命守护者" class="image-link" data-act="boarditem-click" data-val="{movieId:42964}">
      <img src="//ms0.meituan.net/mywww/image/loading_2.e3d934bf.png" alt="" class="poster-default" />
      <img data-src="https://p0.meituan.net/movie/363e3a7e614d29b2847ff4e62afcd3f42168651.jpg@160w_220h_1e_1c" alt="毒液:致命守护者" class="board-img" />
    </a>
    <div class="board-item-main">
      <div class="board-item-content">
              <div class="movie-item-info">
        <p class="name"><a href="/films/42964" title="毒液:致命守护者" data-act="boarditem-click" data-val="{movieId:42964}">毒液:致命守护者</a></p>
        <p class="star">
                主演:汤姆·哈迪,米歇尔·威廉姆斯,里兹·阿迈德
        </p>
<p class="releasetime">上映时间:2018-11-09</p>    </div>
    <div class="movie-item-number score-num">
<p class="score"><i class="integer">9.</i><i class="fraction">3</i></p>        
    </div>

      </div>
    </div>

                </dd>

比如,我们想找毒液这部电影的信息在html中如何保存的,那么可以按下 ctrl + f  调出搜索框, 输入 毒液 便可以定位到毒液的信息。通过分析,可以看到  毒液  电影的信息是包含在标签为<dd>里面, 如果我们查看更多的电影信息的话,我们会看到每一部电影信息都是包含在<dd>....<\dd>标签里面的。

         通过上面的例子, 可以看到从网页中看到的信息都是包含在一个叫做 html 的文件的标签里面的。查看网页源代码的方式是右键 --> 查看源代码 , 想要定位需要的信息,可以按下 ctrl + f 输入想要搜索的信息即可。

下一篇文章介绍,python爬虫系列——requests , 将会介绍怎么使用requests 将包含信息的html 文件获取到本地。 

这个系列文章也会在微信公众号,同步更新,欢迎关注。

                                                             

猜你喜欢

转载自blog.csdn.net/qq_34246164/article/details/84728896