aprendizaje del rastreador de Python 23

aprendizaje del rastreador de Python 23

3. Expresiones regulares

4. método de búsqueda

Antes, aprendimos las funciones respectivas y las deficiencias de los métodos de búsqueda y coincidencia. En el estudio de ayer, sabíamos que después de usar el método de búsqueda, podemos evitar efectivamente el problema de que el método de coincidencia debe coincidir con la cadena desde el principio, pero la búsqueda en sí mismo también tiene grandes defectos, a saber, solo se encontrará el primer resultado coincidente.

En este momento, si queremos hacer coincidir todos los resultados posibles, necesitamos usar findall (literalmente, podemos saber intuitivamente lo que hace este método)

Tome el texto html de ayer y aún así haga coincidir todas las categorías novedosas en él

<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>

Aplicar el método findall:

# fidall 方法
import re

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""

result = re.findall('href.*?xiaoshuo/">(.*?)<', html, re.S)
print(type(result))	# 由结果可知,findall方法最终会返回一个列表
i = 0
for item in result:
    print(i, ':', item)
    i += 1

resultado de la operación:

inserte la descripción de la imagen aquí

Si la expresión regular coincide con varios objetivos:

# fidall 方法
import re

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""

result = re.findall('href.*?/(.*?)/">(.*?)<', html, re.S)
print(type(result))
i = 0
for item in result:
    print(i, ':', item)
    i += 1

Ejecución de resultados: cada resultado coincidente formará una tupla y luego formará una lista con otros resultados

inserte la descripción de la imagen aquí

5. sub

En la operación de consulta básica, si queremos modificar la cadena, necesitamos usar el método sub

import re

content = 'as5af6fa5fa6fsfa'
# 假如我们想要把其中的数字都去掉,在replace的方法外我们还可以通过sub方法实现
result = re.sub('\d+', '', content)
print(result)

resultado de la operación:

inserte la descripción de la imagen aquí

Volviendo al texto html anterior, si queremos tener todo el chino en él, puede ser muy problemático escribir un regular (por supuesto, es muy simple aquí), en este momento podemos usar sub y findall juntos:

import re

html = """
<div class="nav">
			<ul>
				<li><a href="https://www.qbiqu.com/">首页</a></li>
                <li><a href="/modules/article/bookcase.php">我的书架</a></li>
				<li><a href="/xuanhuanxiaoshuo/">玄幻小说</a></li>
				<li><a href="/xiuzhenxiaoshuo/">修真小说</a></li>
				<li><a href="/dushixiaoshuo/">都市小说</a></li>
				<li><a href="/chuanyuexiaoshuo/">穿越小说</a></li>
				<li><a href="/wangyouxiaoshuo/">网游小说</a></li>
				<li><a href="/kehuanxiaoshuo/">科幻小说</a></li>
				<li><a href="/paihangbang/">排行榜单</a></li>
				<li><a href="/wanben/1_1">完本小说</a></li>
				<li><a href="/xiaoshuodaquan/">全部小说</a></li>
                <li><script type="text/javascript">yuedu();</script></li>
			</ul>
		</div>
        <div id="banner" style="display:none"></div>
		<div class="dahengfu"><script type="text/javascript">list1();</script></div>
"""
result = re.sub('<a.*?>', '', html, re.S)
print(result)
result1 = re.findall('<li>(.*?)</a>', result, re.S)
for item in result1:
    print(item)

Resultado después de usar sub:

inserte la descripción de la imagen aquí

Basado en esto, el resultado de nuestra coincidencia de expresiones regulares:

inserte la descripción de la imagen aquí

6. compilar

El método de compilación puede compilar cadenas regulares en objetos de expresión regular:

import re

text1 = '2020-03-28 20:00'
# 假设现在有多段不同的html文本,我们想要匹配其中的某些相同的元素如中文歌名等,这时对于每段html我们都要传入相同的表达式(假设表达式相同),与re.S等修饰器内容
# 这样就不如先把它们集成成一个对象,方便以后代码的复用
pattern = re.compile('\d{2}:\d{2}', re.S)
# 把它编译成一个对象以后就可以实现代码的复用,就不用每次遇到都要重新输入'\d{2}:\d{2}'
result = re.sub(pattern, '', text1)
print(result)

resultado de la operación:

inserte la descripción de la imagen aquí

Hasta ahora hemos terminado de aprender el contenido relevante de las expresiones regulares, ¿sientes que nuestro sistema de conocimiento se ha enriquecido en gran parte?

Hoy termina, continuará...

Supongo que te gusta

Origin blog.csdn.net/szshiquan/article/details/123804997
Recomendado
Clasificación