给定一个文本文件，每行是一条股票信息，写程序提取出所有的股票代码

编程语言 2023-08-12 21:40:27 阅读次数: 0

问题：给定一个文本文件，每行是一条股票信息，写程序提取出所有的股票代码。其中，股票代码规则是：6 位数字，
而且以.SH 或者.SZ 结尾。
文件内容示例：
2020-08-08;平安银行(000001.SZ);15.55;2940.00 亿
2020-08-08;恒瑞医药(600276.SH);95.32;4956.50 亿(包括非流通市值)
......
2020-08-08;宁德时代(300750.SZ);205.32;4657 亿
输出：
[‘000001.SZ’,’600276.SH’.......’300750.SZ’]

解答：

import re

# 打开文件并读取所有行
with open('file.txt', 'r') as f:
    lines = f.readlines()

# 定义正则表达式规则
pattern = re.compile(r'\d{6}\.[SZ]{2}')

# 提取所有股票代码
codes = []
for line in lines:
    match = pattern.search(line)
    if match:
        codes.append(match.group())

# 输出所有股票代码
print(codes)

在这个示例代码中，我们首先打开文件并将所有行读入列表。然后，我们定义了一个正则表达式规则来匹配股票代码。接下来，我们使用一个循环遍历所有行，并查找匹配规则的股票代码。最后，我们将所有匹配的股票代码存储在一个列表中并进行输出。

请注意，这里的文件名应该改为您实际的文件名，而不是 'file.txt'。

但是会出现报错：

content = f.readlines()
UnicodeDecodeError: 'gbk' codec can't decode byte 0xa1 in position 21: illegal multibyte sequence

原因：

这个错误通常是由于文件编码方式与 Python 所使用的编码方式不一致导致的。可以尝试指定文件编码方式，例如：

with open('file.txt', 'r', encoding='utf-8') as f:
lines = f.readlines()

所以出现这个问题时，只需

变为

with open('file.txt', 'r',encoding='utf-8') as f:
    lines = f.readlines()

猜你喜欢

转载自blog.csdn.net/CSH__/article/details/130471981

给定一个文本文件，每行是一条股票信息，写程序提取出所有的股票代码

linux命令（48）：打乱一个文本文件的所有行

如何获取所有股票代码

股票代码提取函数

python3随笔-合并所有目录及子目录的文本文件为一个文件

已知源目录路径sourceFilePath,此目录下还有多级子目录和多个文本文件(*.txt)。尝试编写一个方法，将此目录下所有的文件拷贝至另一个目录targetFilePath，并其中的文本文件修改成SQL文件(*.SQL)。

盘点一个Python网络爬虫抓取股票代码问题（下篇）

盘点一个Python网络爬虫抓取股票代码问题（上篇）

野指针；给定一个超大的文本文件，有很多行，怎么用C语言实现把这个文件按行倒序输出呢？

JAVA 从一个文本文件将每行内容倒序写入另一个文件

Confluence 6 导入一个文本文件

判断一个文本文件的编码格式

用Python合并多个文件为一个文本文件的方法代码

用python写1个代码，bs_inference.py，里面有一个download 函数，函数的参数是（股票代码，开始日期，结束日期）。这个函数的功能是调用 baostock接口来进行数据的下载，可...

获取上证50的所有股票代码

一个nodejs小程序批量转换文本文件的字符集

Python网络爬虫——把一个网页中所有的链接地址提取出来（去重）

爬取某只股票百度上所有的新闻数据-以广州白云机场（股票代码-600004）为例

从类似如下的文本文件中读取出所有的姓名，并打印出重复的姓名和重复的次数，并按重复次数排序

从类似如下的文本文件中读取出所有的姓名，并打印出重复的姓名和重复的次数，按重复次数排序: (编程，提示:集合)

Python获取所有股票代码以及股票历史成交数据分析（二）

Python获取所有股票代码以及股票历史成交数据分析

一个爬取股票信息的爬虫程序

C语言【将一个文本文件中的全部信息显示到屏幕上】

爬取股票信息（股票代码+价格）

股票代码

股票代码含义

C语言文件基础：模拟copy命令，将一个文本文件复制到另一个文本文件

Java一次读取文本文件所有内容

JAVA——一次性读取或者写入文本文件所有内容

今日推荐

基于大语言模型的开源知识库问答系统 MaxKB GitHub Star 数量突破 5,000 个！

美国拟限制 AI 大模型出口中国和俄罗斯

苹果将与 OpenAI 达成协议，将 ChatGPT 应用于 iPhone

openKylin 社区生态委员会第六次会议圆满召开

阿里云正式发布通义千问 2.5

Python 3.13 发布首个 Beta：实验性自由线程模式和 JIT、改进交互式解释器

Stack Overflow 拿我的代码去训练 AI 大模型，还封了我的账号

Pop!_OS 的 COSMIC 桌面完成 App Store 上架工作

《2024 年一季度互联网投融资运行情况》研究报告

报告：Django 仍然是 74% 开发者的首选

15 年前上了“FFmpeg 耻辱柱”，今天他还得谢谢咱——腾讯QQPlayer一雪前耻？

TIOBE 5 月榜单：Fortran “复活”进入 Top 10

周排行

记一下去大梅沙的准备（2018-05-26）

Spring 注解事务

基于HTTP协议的客户端缓存

阿里云rds 备份和还原

[PHP] 几个拖慢 PHP 程序/API 运行速度的点

python 代码风格------------PEP8规则

js控制json生成菜单——自制菜单（一）

将字符串: 'k:1|k1:2|k2:3|k3:4 ' ,处理成 python 字典: {'k':1, 'k1':2, ...}

微信小程序转支付宝小程序

Qt551.窗口滚动条

每日归档

更多

2024-05-13(18)

2024-05-12(0)

2024-05-11(38)

2024-05-10(38)

2024-05-09(35)

2024-05-08(42)

2024-05-07(14)

2024-05-06(40)

2024-05-05(0)

2024-05-04(7)