使用python筛选基金

天天基金网上可以公开购买的基金有8000多个,如何从其中筛选出比较好的基金进行投资,可能会有很多策略,我这里使用了一个非常简单粗暴的方法,从六个时间维度,即'近1周', '近1月','近3月', '近6月', '近1年', '近2年',分别提取出其中盈利排名前100的基金,取他们的交集。首先需要将所有基金信息全部爬取下来,然后使用pandas进行处理。

环境

  • python3 + pandas(anaconda3)
  • win10
  • Firefox开发版

爬取基金信息

打开天天基金网的官网,在基金排行中可以看到所有的基金数据。

基金排行数据

首先使用浏览器分析一下HTTP请求
这是请求

HTTP请求

这是响应
HTTP响应

响应是一段js代码,其中rankData变量为返回的数据

var rankData = {
    datas: [
        "008121,万家自主创新混合C,WJZZCXHHC,2020-07-10,1.3649,1.3649,1.1037,16.1123,30.4377,43.4321,,,,,,36.49,2020-02-10,1,36.49,,0.00%,,,,", 
        "257070,国联安优选行业混合,GLAYXHYHH,2020-07-10,3.5262,3.8272,1.3480,16.0622,29.4113,50.5186,65.7283,151.0465,160.7943,128.0854,78.9132,334.4737,2011-05-23,1,150.6361,1.50%,0.15%,1,0.15%,1,110.7711", 
        ...
    ], 
    allRecords: 6279, 
    pageIndex: 2, 
    pageNum: 50, 
    allPages: 126, 
    allNum: 6279, 
    gpNum: 1248, 
    hhNum: 3131, 
    zqNum: 1739, 
    zsNum: 954, 
    bbNum: 0, 
    qdiiNum: 161, 
    etfNum: 0, 
    lofNum: 260, 
    fofNum: 121
};

这个爬虫很简单,直接上代码

#-*- coding:utf-8 -*-
# writen by wlj @20200712
import requests
import json
import js2py,re
import pickle

#全局变量,requests使用的头部字段
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:79.0) Gecko/20100101 Firefox/79.0',
    'Cookie': 'st_si=12097774306782; st_sn=7; st_psi=20200712090801308-0-3225966371; st_asi=delete; ASP.NET_SessionId=d3i2hxkiu0rzmshtsa3kw514; st_pvi=49218209189172; st_sp=2020-07-11%2012%3A21%3A10; st_inirUrl=https%3A%2F%2Fwww.baidu.com%2Flink',
    'Referer': 'http://fund.eastmoney.com/data/fundranking.html'
}

def spider():
    #用来保存所有基金数据的列表
    all_data = []
    #基金排名页的url
    url = 'http://fund.eastmoney.com/data/rankhandler.aspx'
    #提交的参数
    params = {
        "op":"ph",
        "dt":"kf",
        "ft":"all",
        "rs":"",
        "gs":"0",
        "sc":"3nzf",
        "st":"desc",
        "sd":"2019-07-11",
        "ed":"2020-07-11",
        "qdii":"",
        "tabSubtype":",,,,,",
        "pi":"5",#page_index 请求的页面的索引
        "pn":"100", #page_number,一个页面中包含的最大的记录数
        "dx":"1",
        "v":"0.3103526639937624"
    }
    s = requests.Session()

    #将整个表爬取下来
    all_pages = 1
    page = 1
    while page <= all_pages:
        r = s.get(url,params = params, headers = headers)
        if r.status_code == 200:
            t = re.findall(r'var rankData = .*?;',r.text)
            #使用js2py库的eval_js方法可以执行js代码,返回rankData的值,将一个js对象,转化为一个python的字典
            data = js2py.eval_js(t[0]+'rankData') 
            #页面总数
            all_pages = data['allPages']
            #将当前页面数据添加到all_data中
            all_data += data['datas']
            print(page)
        #下一页
        page += 1
        #修改params参数
        params['pi'] = str(page)
    
    #将结果保存为pickle格式
    pickle.dump(all_data,open('data.db','wb'))
    #将结果保存为csv格式
    open('data.csv','w',encoding='utf-8').write('\n'.join(data))

spider()

结果中没有title,可以结合全面手动补上表格的title,结果如下图。

结果

筛选近期收益较好的基金

image.png

当然还要结合其它因素来选择,以往的业绩不能代表这些基金未来的走势,不作为投资建议。

Guess you like

Origin blog.csdn.net/a854596855/article/details/114920054