Python数据处理工具——去除Excel文本中多余的空行,并且写入到原来的位置

前言

        在把爬虫爬到的数据存入Excel之后,有遇到过文本有很多空行的情况,在文章的中间和前面后面,如下图:

         我觉得Excel的替换又不好用,所以写了这么一个小工具去处理这样的一个格式的数据,省得自己一个个去去删(不现实别去干  )

代码如下:

# 去除Excel文本中多余的空行,并且写入到原来的位置
def remove_emptyrow(path=r'', rcolumn=1):  # path=路径,rcolum=要处理的列
    wb = openpyxl.load_workbook(path)  # 加载文件
    ws = wb.active
    for i in range(1, ws.max_row + 1):
        data = []
        old = ws.cell(i, rcolumn).value
        r = re.split(r'\s+', old)  # 去除文本中间的空行
        for j in r:  # 去除文本前后的空行
            if j == '':
                pass
            else:
                data.append(j)
        ws.cell(i, rcolumn).value = '\n'.join(data)  # 写入
    wb.save(path)  # 保存
    wb.close()
    print("处理完成")
remove_emptyrow()

         其实这代码不但会去删换行(\n),也可以把也可以把爬虫爬到的\t,\r,这种格式删除,其实很大一部分空行就是这些分隔符引起的。

猜你喜欢

转载自blog.csdn.net/weixin_54243306/article/details/129162334