将txt文本由utf-8转gbk - 代码天地

将txt文本由utf-8转gbk

其他 2021-03-19 19:57:15 阅读次数: 0

import codecs

# file = open(path, encoding='gbk', errors='ignore')
# print(file.readline())


path = "locator5.txt" #输入文件路径,要保证格式为utf-8,window下文本打开另存为utf-8,
                    # linux下文件直接转gbk  [shenjiayu@cp01-shenjiayu: ~]$ iconv -f utf-8 -t gbk utf_file > gbk_file
path2 = "locator6.txt"
path3 = "locator.json"

def ReadFile(filePath,encoding="utf-8"):
    with codecs.open(filePath, "r", encoding) as f:
        return f.read()

def ReadFile2(filePath,encoding="gbk"):
    with codecs.open(filePath, "r", encoding) as f:
        return f.read()

def WriteFile(filePath,u,encoding="gbk"):
    with codecs.open(filePath, "w", encoding) as f:
        f.write(u)

def UTF8_2_GBK(src,dst):
    content = ReadFile(src, encoding="utf-8")
    WriteFile(dst, content, encoding="gbk")

def UTF8_2_GBK2(src,dst):
    content = ReadFile(src, encoding="utf-8")
    WriteFile(dst, content, encoding="gb18030")




def UTF8_2_GBK3(src,dst):
    content = ReadFile(src, encoding="gbk")
    WriteFile(dst, content, encoding="gbk")



UTF8_2_GBK2(path,path2)
#
# a = ReadFile2(path3)
# b = WriteFile(path2)
# UTF8_2_GBK2(a,b)

``

还有顺便补一个去除中文的

#随便记一个去除中文的
```python
import re
from zhon.hanzi import punctuation
from zhon.hanzi import characters

def lm_find_unchinese(file):
    pattern = re.compile(r'[\u4e00-\u9fa5]')
    unchinese = re.sub(pattern,"",file) #排除汉字
    unchinese = re.sub('[{}]'.format(punctuation),"",unchinese) #排除中文符号
    #print("unchinese:",unchinese)
    return unchinese

猜你喜欢

转载自blog.csdn.net/weixin_43134049/article/details/111597517

将txt文本由utf-8转gbk

GBK UTF-8转码

gbk与utf-8

PHP字符格式转换（非GBK转GBK）or （非UTF-8转UTF-8）

将电脑新建文本文档txt的默认编码从ANSI改为utf-8

Eclipse GBK批量转UTF-8插件(转)

java批量将GBK项目源码转成utf-8

批量将代码从GBK转为UTF-8

utf-8 unicode gbk

Golang GBK To Utf-8

UTF-8与GBK详解

Pycharm、gbk、UTF-8

理解并解决GBK转UTF-8奇数中文乱码

[转]字符编码详解及由来(UNICODE,UTF-8,GBK)

java文件gbk转utf-8编码

gbk转utf-8批量转换

UTF-8转换成GBK

java代码中GBK转UTF-8的工具类

文件编码转化 GBK 转 UTF-8工具类

utf-8转成GBK 中文乱码

GBK转UTF-8乱码，为什么不可逆

VBA导出UTF-8格式的TXT文本

UTF-8 GBK UTF8 GB2312 之间的区别和关系（转）

转utf-8

C++文件编码由GBK转换UTF-8的解决方法

Linux脚本将目录下所有文件由GB2312转为UTF-8

ubuntu下txt文件编码转换、查询（gbk/ISO-8859->utf-8）

Qt读取TXT文件时，GBK与UTF-8编码判断

Python实现文件（xml,txt）编码转换GB2312、GBK、UTF-8

GBK与UTF-8的区别与用途

今日推荐

NetBSD 禁止提交由 AI 生成的代码

Apache Doris 2.0.10 版本正式发布！

开源日报 | 大模型开战；大模型独角兽被曝卖身；周鸿祎建议谷歌开源所有产品；最大开源AI社区提供1000万美元共享GPU

开源日报 | Chrome内置Gemini的意义不在于Gemini；中国AI追随之路的五大误区；ECharts创始人“下海”养鱼；谷歌I/O开发者大会什么都有，只是没有惊喜

微软回应中国区AI团队“打包赴美”传闻

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

周排行

static方法和非static方法的区别（java）

如何查找计算机专业paper

java.lang.ClassFormatError: Incompatible magic value 0 in class file com/sitecha

跳跃游戏II

stm32_之【建立工程】

TeaWeb v0.0.9 发布，统计底层优化、主机监控功能改进

事件分发 -----控制字体大小

JavaScript DOM练习（动态表格添加） December 25，2019

JSF Scope & CDI

实现从零搭建一个登录注册页面（附源代码）

每日归档

更多

2024-05-19(0)

2024-05-18(4)

2024-05-17(34)

2024-05-16(6)

2024-05-15(24)

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)