文件读取时的编码错误问题如何解决 - 代码天地

文件读取时的编码错误问题如何解决

其他 2020-06-19 01:02:52 阅读次数: 0

编码遇到些错误，所以写一下部分解决办法：
①f = codecs.open(’./sentence.txt’,‘r’,‘utf-8’)
RuntimeError: you must first build vocabulary before training the model

open(file)默认GBK，所以要注明用UTF-8来读文件。中文词先建立词库。

②s1=ss.split(" ".encode(encoding=‘utf-8’))

TypeError: must be str or None, not bytes

split需要str格式读取
③g=open(‘D:\Download\code\w2v\sentence.txt’, ‘rb’,'utf-8)
TypeError:an integer is required (got type str)
二进制读取不能用utf-8转换
改为：

with codecs.open('./sentence.txt','r','utf-8') as f:
    sss=[]
    while True:
        ss=f.readline().replace('\n','').rstrip()#对str才能操作
        if ss=='':
            break
            s1=ss.split(" ")
            sss.append(s1)
f.close()

总代码如下：

import json
import codecs
d =dict(name=['书', '书包', '书本'], age=[20,77,9], score=[6,8,88])
f =open('./sentence.txt', 'w')
json.dump(d,f)
f.close()
g=open('./sentence.txt', 'rb')
e=json.load(g)
print(e)
from gensim.models import Word2Vec
with codecs.open('./sentence.txt', 'r', 'utf-8') as f:
    sss=[]
    while True:
        ss=f.readline().replace('\n', '').rstrip()#对str才能操作
        if ss=='':
            break
            s1=ss.split(" ")
            sss.append(s1)
f.close()
model=Word2Vec(size=50, window=2, sg=1)
model.build_vocab(sss)
model.train(sss,total_examples=model.corpus_count, epochs=model.iter)
model.save('./gensim_w2v_sg0_model')
new_model= gensim.models.Word2Vec.load('w2v_model')#调用模型
sim_words=new_model.most_similar(positive=['书本'])
for word, similarity in sim_words:
    print(word,similarity)# 输出’书本‘相近的词语和概率
    print(model['书桌'])

也可以关注此公众号，一起学习探讨吧：
在这里插入图片描述

猜你喜欢

转载自blog.csdn.net/Time_traveler233/article/details/106304357

文件读取时的编码错误问题如何解决

如何解决Python中的UnicodeEncodeError编码错误问题

Word在试图打开文件时错误，如何解决

Java读取、写入 file文件如何解决乱码问题

解决python在读取文件时的编码问题

python 读取txt文件时编码错误

用JDOM解析XML文件时如何解决中文问题？如何解析？

如何解决django升级的错误问题

如何解决使用Druid登录时出现403错误码问题

如何解决重装 Windows 系统时出现的意外重启或错误问题？

如何解决Python函数中的硬编码错误?

读取文件编码错误

菜鸟学习IntelliJ IDEA之如何解决读取properties文件乱码问题

java读取默认编码是ansi的文本文件时，解决中文乱码问题

Nginx 假如reload或reopen时发生错误如何解决

SparkStreaming如何解决小文件问题

C ++头文件的十大错误，如何解决这些问题

如何解决Visual Studio2010 编译时提示系统找不到指定文件问题

PCB文件输出时，出现边框不显示的问题，如何解决？

如何解决打开PDF文件时显示已损坏无法修复的问题！

如何解决Eclipse中的字体与编码问题

如何解决pandas读取excel时候的报错问题？？？

问题如何解决

如何解决执行Python文件时出现but no encoding declared

git提交错误问题如何解决？

小程序“errcode“:41002错误问题如何解决？

如何解决apache 403错误问题?Linux学习教程

如何解决错误：An error occurred.问题

如何解决 EDAS 上传论文时 PDF fonts 问题

如何解决Eclipse启动service时，视图跳转问题

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

报告：Django 仍然是 74% 开发者的首选

《2024 年一季度互联网投融资运行情况》研究报告

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

BPM为企业带来的实际利益

好程序员web前端分享css常用属性缩写

Java文件下载（excel）

css样式的动态添加及显示和隐藏等零碎用法

axios全局配置以及拦截器

使用Logstash来实时同步MySQL和log日志数据到ES

C++获取当前时间（年月日、时分秒、毫秒）

Odoo产品分析 (四) -- 工具板块(11) -- 网站即时聊天(1)

Java环境配置正确，但是java、javac、java -version均返回“不是内部或外部命令，也不是可运行的程序或批处理文件”？

01 官网下载各种CentOS教程（超详细版）

每日归档

更多

2024-05-14(0)

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)