python:BeautifulSoup解析爬取网页文章demo

文章目录


进阶请点击 Beautiful Soup 4.4.0 文档

代码

#  -*-coding:utf8 -*-
from bs4 import BeautifulSoup
import re
#这是示例
html_doc = """
<!DOCTYPE HTML>
<html>
<head>
<meta charset="UTF-8">
<meta http-equiv="X-UA-Compatible" content="IE=edge">

<ul class="menu">
	<li id="menu-item-614806" class="aaaaaa"><a href="tag">红</a></li>
	<li id="menu-item-614807" class="aaaaaa"><a href="tag">橙</a></li>
	<li id="menu-item-614808" class="aaaaaa"><a href="tag">黄</a></li>
	<li id="menu-item-623789" class="aaaaaa"><a href="tag">绿</a></li>
	<li id="menu-item-623982" class="aaaaaa"><a href="tag">蓝</a></li>
	<li id="menu-item-623740" class="aaaaaa"><a href="tag">靛</a></li>
	<li id="menu-item-624007" class="aaaaaa"><a href="tag">紫</a></li>
</ul>

<ul class="sub-menu">
	<li id="menu-item-2148061" class="bbbbbbbbbbb"><a href="tag">红_sub</a></li>
	<li id="menu-item-2148071" class="bbbbbbbbbbb"><a href="tag">橙_sub</a></li>
	<li id="menu-item-2148081" class="bbbbbbbbbbb"><a href="tag">黄_sub</a></li>
	<li id="menu-item-2237891" class="bbbbbbbbbbb"><a href="tag">绿_sub</a></li>
	<li id="menu-item-2239821" class="bbbbbbbbbbb"><a href="tag">蓝_sub</a></li>
	<li id="menu-item-2237401" class="bbbbbbbbbbb"><a href="tag">靛_sub</a></li>
	<li id="menu-item-2240071" class="bbbbbbbbbbb"><a href="tag">紫_sub</a></li>
</ul>

<h2><a href="httpsssv">春江潮水连海平,海上明月共潮生。</a></h2>    
<h2><a href="httpsssv">滟滟随波千万里,何处春江无月明!</a></h2>
<h2><a href="httpsssv">江流宛转绕芳甸,月照花林皆似霰。</a></h2>
<h2><a href="httpsssv">空里流霜不觉飞,汀上白沙看不见。</a></h2>
<h2><a href="httpsssv">江天一色无纤尘,皎皎空中孤月轮。</a></h2>
<h2><a href="httpsssv">江畔何人初见月?江月何年初照人?</a></h2>
<h2><a href="httpsssv">人生代代无穷已,江月年年望相似。</a></h2>
<h2><a href="httpsssv">不知江月待何人,但见长江送流水。</a></h2>
<h2><a href="httpsssv">白云一片去悠悠,青枫浦上不胜愁。</a></h2>
<h2><a href="httpsssv">谁家今夜扁舟子?何处相思明月楼?</a></h2>
<h2><a href="httpsssv">可怜楼上月徘徊,应照离人妆镜台。</a></h2>
<h2><a href="httpsssv">玉户帘中卷不去,捣衣砧上拂还来。</a></h2>
<h2><a href="httpsssv">此时相望不相闻,愿逐月华流照君。</a></h2>
<h2><a href="httpsssv">鸿雁长飞光不度,鱼龙潜跃水成文。</a></h2>
<h2><a href="httpsssv">昨夜闲潭梦落花,可怜春半不还家。</a></h2>
<h2><a href="httpsssv">江水流春去欲尽,江潭落月复西斜。</a></h2>
<h2><a href="httpsssv">斜月沉沉藏海雾,碣石潇湘无限路。</a></h2>
<h2><a href="httpsssv">不知乘月几人归,落月摇情满江树。</a></h2>
</body>
</html>
"""

 
#初始化,实例化一个BeautifulSoup对象,参数可以是一个字符串,也可以是一个打开的文件比如open('mydoc.html')

soup = BeautifulSoup(html_doc, 'html.parser')

#按照标准的缩进格式的结构输出:
print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")
print(soup.prettify())
print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")

#正则表达式 代码找出所有名字中包含”t”的标签:
for tag in soup.find_all(re.compile("t")):
    print(tag.name)

print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")
#True 可以匹配任何值,下面代码查找到所有的tag,但是不会返回字符串节点,limit=2 只筛选前2个tag
for tag in soup.find_all(True, limit=2):
    print(tag.name)

print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")
print(soup.findAll('li', class_="bbbbbbbbbbb"))
print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")
print(soup.findAll('li',{
    
    "class":"bbbbbbbbbbb"}))
print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")
print(soup.find_all('li', class_="bbbbbbbbbbb"))
print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")
print(soup.find_all('li',{
    
    "class":"bbbbbbbbbbb"}))
print(">>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<")

#从文档中获取所有文字内容和标签属性,将内容写入文件title.txt:  
f=open("C:/hjma/title.txt","w")
tags = soup.find_all('h2')
for tag in tags:
    print(tag.a) #<a href="httpsssv">斜月沉沉藏海雾,碣石潇湘无限路。</a>
    print(tag.a.name)#a
    print(tag.a.attrs)#{'href': 'httpsssv'}
    print(tag.a.get("href"))#httpsssv
    print(tag.a["href"])#httpsssv
    print(tag.a.getText())#斜月沉沉藏海雾,碣石潇湘无限路。
    f.write(tag.a.getText()+"\n") 

打印

C:\Users\admin>py wenzhang.py
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
<!DOCTYPE HTML>
<html>
 <head>
  <meta charset="utf-8"/>
  <meta content="IE=edge" http-equiv="X-UA-Compatible"/>
  <ul class="menu">
   <li class="aaaaaa" id="menu-item-614806">
    <a href="tag"></a>
   </li>
   <li class="aaaaaa" id="menu-item-614807">
    <a href="tag"></a>
   </li>
   <li class="aaaaaa" id="menu-item-614808">
    <a href="tag"></a>
   </li>
   <li class="aaaaaa" id="menu-item-623789">
    <a href="tag">
     绿
    </a>
   </li>
   <li class="aaaaaa" id="menu-item-623982">
    <a href="tag"></a>
   </li>
   <li class="aaaaaa" id="menu-item-623740">
    <a href="tag"></a>
   </li>
   <li class="aaaaaa" id="menu-item-624007">
    <a href="tag"></a>
   </li>
  </ul>
  <ul class="sub-menu">
   <li class="bbbbbbbbbbb" id="menu-item-2148061">
    <a href="tag">
     红_sub
    </a>
   </li>
   <li class="bbbbbbbbbbb" id="menu-item-2148071">
    <a href="tag">
     橙_sub
    </a>
   </li>
   <li class="bbbbbbbbbbb" id="menu-item-2148081">
    <a href="tag">
     黄_sub
    </a>
   </li>
   <li class="bbbbbbbbbbb" id="menu-item-2237891">
    <a href="tag">
     绿_sub
    </a>
   </li>
   <li class="bbbbbbbbbbb" id="menu-item-2239821">
    <a href="tag">
     蓝_sub
    </a>
   </li>
   <li class="bbbbbbbbbbb" id="menu-item-2237401">
    <a href="tag">
     靛_sub
    </a>
   </li>
   <li class="bbbbbbbbbbb" id="menu-item-2240071">
    <a href="tag">
     紫_sub
    </a>
   </li>
  </ul>
  <h2>
   <a href="httpsssv">
    春江潮水连海平,海上明月共潮生。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    滟滟随波千万里,何处春江无月明!
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    江流宛转绕芳甸,月照花林皆似霰。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    空里流霜不觉飞,汀上白沙看不见。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    江天一色无纤尘,皎皎空中孤月轮。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    江畔何人初见月?江月何年初照人?
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    人生代代无穷已,江月年年望相似。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    不知江月待何人,但见长江送流水。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    白云一片去悠悠,青枫浦上不胜愁。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    谁家今夜扁舟子?何处相思明月楼?
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    可怜楼上月徘徊,应照离人妆镜台。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    玉户帘中卷不去,捣衣砧上拂还来。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    此时相望不相闻,愿逐月华流照君。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    鸿雁长飞光不度,鱼龙潜跃水成文。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    昨夜闲潭梦落花,可怜春半不还家。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    江水流春去欲尽,江潭落月复西斜。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    斜月沉沉藏海雾,碣石潇湘无限路。
   </a>
  </h2>
  <h2>
   <a href="httpsssv">
    不知乘月几人归,落月摇情满江树。
   </a>
  </h2>
 </head>
</html>

>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
html
meta
meta
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
html
head
[<li class="bbbbbbbbbbb" id="menu-item-2148061"><a href="tag">红_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2148071"><a href="tag">橙_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2148081"><a href="tag">黄_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2237891"><a href="tag">绿_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2239821"><a href="tag">蓝_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2237401"><a href="tag">靛_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2240071"><a href="tag">紫_sub</a></li>]
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
[<li class="bbbbbbbbbbb" id="menu-item-2148061"><a href="tag">红_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2148071"><a href="tag">橙_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2148081"><a href="tag">黄_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2237891"><a href="tag">绿_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2239821"><a href="tag">蓝_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2237401"><a href="tag">靛_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2240071"><a href="tag">紫_sub</a></li>]
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
[<li class="bbbbbbbbbbb" id="menu-item-2148061"><a href="tag">红_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2148071"><a href="tag">橙_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2148081"><a href="tag">黄_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2237891"><a href="tag">绿_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2239821"><a href="tag">蓝_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2237401"><a href="tag">靛_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2240071"><a href="tag">紫_sub</a></li>]
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
[<li class="bbbbbbbbbbb" id="menu-item-2148061"><a href="tag">红_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2148071"><a href="tag">橙_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2148081"><a href="tag">黄_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2237891"><a href="tag">绿_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2239821"><a href="tag">蓝_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2237401"><a href="tag">靛_sub</a></li>, <li class="bbbbbbbbbbb" id="menu-item-2240071"><a href="tag">紫_sub</a></li>]
>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>>><<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<<
<a href="httpsssv">春江潮水连海平,海上明月共潮生。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
春江潮水连海平,海上明月共潮生。
<a href="httpsssv">滟滟随波千万里,何处春江无月明!</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
滟滟随波千万里,何处春江无月明!
<a href="httpsssv">江流宛转绕芳甸,月照花林皆似霰。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
江流宛转绕芳甸,月照花林皆似霰。
<a href="httpsssv">空里流霜不觉飞,汀上白沙看不见。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
空里流霜不觉飞,汀上白沙看不见。
<a href="httpsssv">江天一色无纤尘,皎皎空中孤月轮。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
江天一色无纤尘,皎皎空中孤月轮。
<a href="httpsssv">江畔何人初见月?江月何年初照人?</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
江畔何人初见月?江月何年初照人?
<a href="httpsssv">人生代代无穷已,江月年年望相似。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
人生代代无穷已,江月年年望相似。
<a href="httpsssv">不知江月待何人,但见长江送流水。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
不知江月待何人,但见长江送流水。
<a href="httpsssv">白云一片去悠悠,青枫浦上不胜愁。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
白云一片去悠悠,青枫浦上不胜愁。
<a href="httpsssv">谁家今夜扁舟子?何处相思明月楼?</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
谁家今夜扁舟子?何处相思明月楼?
<a href="httpsssv">可怜楼上月徘徊,应照离人妆镜台。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
可怜楼上月徘徊,应照离人妆镜台。
<a href="httpsssv">玉户帘中卷不去,捣衣砧上拂还来。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
玉户帘中卷不去,捣衣砧上拂还来。
<a href="httpsssv">此时相望不相闻,愿逐月华流照君。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
此时相望不相闻,愿逐月华流照君。
<a href="httpsssv">鸿雁长飞光不度,鱼龙潜跃水成文。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
鸿雁长飞光不度,鱼龙潜跃水成文。
<a href="httpsssv">昨夜闲潭梦落花,可怜春半不还家。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
昨夜闲潭梦落花,可怜春半不还家。
<a href="httpsssv">江水流春去欲尽,江潭落月复西斜。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
江水流春去欲尽,江潭落月复西斜。
<a href="httpsssv">斜月沉沉藏海雾,碣石潇湘无限路。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
斜月沉沉藏海雾,碣石潇湘无限路。
<a href="httpsssv">不知乘月几人归,落月摇情满江树。</a>
a
{
    
    'href': 'httpsssv'}
httpsssv
httpsssv
不知乘月几人归,落月摇情满江树。

C:\Users\admin>

查看title.txt
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/qq_39900031/article/details/113996588