desarrollo de hervidor-día 41-reemplazo de hilo de limpieza de datos

Prefacio:

        Ayer hablamos sobre el desvío a través del componente de caso/cambio para distinguir tres categorías principales de datos en la fecha, incluidos los datos que se muestran normalmente del 12/7/2023 a las 2:59:58, uno que contiene datos de la mañana china y el otro son datos. que contiene la tarde china. Sin embargo, descubrimos que los datos almacenados directamente de esta manera todavía contienen muchos datos anormales con ਍ y caracteres chinos mañana, tarde y el año está incompleto y solo tiene 23. Obviamente, estos datos anormales harán que nuestro análisis de datos no pueda procesarse. Por tanto, debemos limpiar estos datos anormales y restaurarlos a la normalidad.

 1. Reemplazo de cuerdas

        1. Introducción a la función

        Como se muestra en la figura anterior, el reemplazo de cadenas puede convertir la cadena A en una cadena B, por lo que podemos usar la función de reemplazo de cadenas para borrar los datos que contienen " ਍" , etc.

        2. Casos pequeños

        Al reemplazar cadenas, si simplemente reemplazamos A con B, solo necesitamos seleccionar el campo de flujo de entrada que necesita ser reemplazado, sin usar expresiones regulares, ingresar A en la búsqueda, usar... para reemplazar, ingresar B y configurar Si es una cadena vacía, espere como se muestra en la siguiente figura.

                 cadena original

El resultado después del reemplazo.

        Como se muestra en la figura anterior, cambiamos con éxito la cadena  ABaaABb → BBBBBBb porque seleccionamos la insensibilidad a mayúsculas y minúsculas, porque a también será reemplazada, por lo que debemos elegir el rango de datos de reemplazo correspondiente de acuerdo con nuestras propias necesidades.

2. Aplicaciones especiales

        Como se mencionó anteriormente, necesitamos procesar caracteres especiales como y caracteres chinos, por lo que debemos usar expresiones regulares .

        2.1 Expresiones regulares

        

         Como se muestra en la figura anterior, usamos la expresión regular ਍+ para hacer coincidir los datos que contienen ਍, por lo que cualquier posición ਍ en la cadena será reemplazada por un valor nulo. De manera similar a la mañana y la tarde chinas, podemos usar la expresión regular mañana + tarde + para hacer coincidir la cadena correspondiente y luego reemplazarla. El efecto de configuración final se muestra en la siguiente figura.

         2.2 Trato especial

        Como mencionamos antes, el año en nuestra cadena está incompleto. Por ejemplo, 2023 muestra 23, por lo que debemos convertir 23 a 2023. Lo que hay que tener en cuenta aquí es que 23 puede aparecer en nuestras horas, minutos y segundos, por lo que al procesar el año 23, debemos usar ^23 para procesar, lo que significa que solo los 23 que comienzan con 23 serán reemplazados por 2023, por lo que no será Horas, minutos y segundos también se han reemplazado con 2023. El efecto correspondiente se muestra en la siguiente figura.

        El problema del año 23 se ha resuelto, también necesitamos reemplazar 23.07.14 con 2023/07/14, por lo que debemos reemplazar "." con "/" en este momento. Lo que hay que tener en cuenta aquí es que no podemos usar directamente . o / , porque las correspondientes son palabras clave, necesitamos usar \. y \/ para completar el reemplazo de las cadenas correspondientes. El efecto final se muestra a continuación.

 3. Resumen

        Al aplicar el reemplazo de cadenas para la limpieza de datos, podemos usar expresiones regulares para la coincidencia aproximada, pero debemos prestar atención a si la coincidencia aproximada provocará que se reemplacen otros datos que no deben reemplazarse. Por ejemplo, al sustituir el año también se sustituyen las horas, los minutos y los segundos.

        Además, cuando encontramos que la cadena reemplazada no tiene el efecto que esperábamos, debemos considerar si hemos usado palabras clave, por lo que debemos usar la palabra clave \ para completar las reglas de reemplazo correspondientes. Buena suerte ~

Supongo que te gusta

Origin blog.csdn.net/qq_29061315/article/details/131718390
Recomendado
Clasificación