云子量化

【答读者问20】从baostock中获取股票行情数据(尽可能避免了幸存者偏差）

作者：yunjinqi 类别：教程日期：2021-12-23 17:59:21 阅读：2826 次消耗积分：0 分

想要找一份质量高的数据很难，对个人投资者而言更是如此，我们只能在不完美中不断前行了。
前面的策略中使用了聚宽的数据，后期的股票策略的数据计划使用baostock的数据去实现。

首先，从优矿上下载了股票的基本信息，包含历史上的已经退市的股票。
然后从baostock上下载相应的行情数据，并下载复权因子，然后合并到行情数据中。
这样虽然已经避免了一部分坑，但是限于baostock本身的限制，有一部分退市的合约的股票数据仍然没有。下载的数据都是使用的后复权数据,并且删除了成交量为0和成交量为“”的交易日。参考代码如下:

import baostock as bsimport pandas as pdimport numpy as npimport datetimeimport os 
bs.login()# 读取股票基本信息info_df =pd.read_csv("./data/股票基础信息.csv",index_col=0)convert={"XSHG":"sh","XSHE":"sz"}info_df['code']=[convert[y]+"."+x.split(".")[0] for x,y in list(zip(info_df['secID'],info_df['exchangeCD']))]# 下载和更新每日数据data_root = "./data/stock/baostock/day/"file_list = os.listdir(data_root)for i,row in info_df.iterrows():
    code = row['code']
    # print(code)
    
    fields = "date,code,open,high,low,close,preclose,volume,amount,adjustflag,turn,\
                tradestatus,pctChg,peTTM,pbMRQ,psTTM,pcfNcfTTM,isST"
    fromdate = row['listDate']
    end_date = row['delistDate']
    # if np.isnan(end_date):
    if not isinstance(end_date,str):
        today = datetime.date.today()
        end_date = today.strftime('%Y-%m-%d')
    frequency = "d"
    adjustflag = "1"
    # 第一次下载数据
    if code+".csv" not in file_list:
        try:
            rs = bs.query_history_k_data_plus(code, fields, start_date = fromdate, end_date = end_date,
                                                        frequency = frequency, adjustflag = adjustflag)
            data_list = []
            while (rs.error_code == '0') & rs.next():  # 获取一条记录，将记录合并在一起
                    data_list.append(rs.get_row_data())
            df = pd.DataFrame(data_list, columns=rs.fields)

            if len(df)>0:
                df.to_csv(data_root+code+".csv", index = False)
                # except:
                # print(f"下载{code}成功")
        except:
            print(f"下载{code}失败")
    # 更新数据
    if code+".csv" in file_list:
        df = pd.read_csv(data_root+code+".csv") 
        df_end_date = list(df['date'])[-1]
        if df_end_date<end_date:
            rs = bs.query_history_k_data_plus(code, fields, start_date = df_end_date, end_date = end_date,
                                                        frequency = frequency, adjustflag = adjustflag)
            data_list = []
            while (rs.error_code == '0') & rs.next():  # 获取一条记录，将记录合并在一起
                    data_list.append(rs.get_row_data())
            data = pd.DataFrame(data_list, columns=rs.fields)
        if len(data)>0:
            df = df.append(data)
        df = df[df['volume']!=""]
        df['volume']=df['volume'].astype("float")
        df = df[df['volume']>0] 
        df.to_csv(data_root+code+".csv", index = False)
        # 获取复权因子data_root = "./data/stock/baostock/day/"file_list = os.listdir(data_root)factor_df = pd.DataFrame()for i,row in info_df.iterrows():
    code = row['code']
    try:
        print(code)
        rs_list = []
        rs_factor = bs.query_adjust_factor(code=code, start_date="1990-01-01", end_date="2021-09-12")
        while (rs_factor.error_code == '0') & rs_factor.next():
            rs_list.append(rs_factor.get_row_data())
        result_factor = pd.DataFrame(rs_list, columns=rs_factor.fields)
        if len(result_factor)>0:
            factor_df = factor_df.append(result_factor)
    except:
        print(f"下载{code}失败")factor_df.to_csv("./data/baostock复权数据.csv")# 把复权因子合并到行情数据中file_list = os.listdir("./data/stock/baostock/day/")for file in file_list:
    df = pd.read_csv("./data/stock/baostock/day/"+file)
    df1=factor_df[factor_df['code']==file[:-4]]
    if len(df1)==0:
        df['backAdjustFactor']=[1]*len(df)
        print(file,"没有除权除息")
    else:
        df1['date']=df1['dividOperateDate']
        df1 = df1[['date','backAdjustFactor']]
        df = pd.merge(df,df1,on=['date'],how='left')
        df = df.fillna(method="ffill")
    df.to_csv("./data/stock/baostock/day/"+file,index=False)

数据下载地址:

股票基础数据
链接: https://pan.baidu.com/s/1QkT-8mvstHd9gVVG_ZRebA 提取码: m7ke 复制这段内容后打开百度网盘手机App，操作更方便哦
股票数据
链接: https://pan.baidu.com/s/1IVs6kiqxYffyyIuXhx3EQg 提取码: uqus 复制这段内容后打开百度网盘手机App，操作更方便哦

日线数据搞了一个下午，准备去做个数据库，以后定期更新到数据库里面。然后开始写股票策略。时间过的真快，我们大概都缺时间，有一种陷入时间稀缺的陷阱中的感觉。

智慧、心灵、财富，总要有一个在路上，愿我们能在人生的道路上，不断成长、不断成熟～～～

感兴趣可以关注我的专栏：

my_quant_study_note：分享一些关于量化投资、量化交易相关的思考

backtrader量化投资回测与交易：本专栏免费，分享backtrader相关的内容。

量化投资神器-backtrader源码解析-从入门到精通：本专栏目前收费299元，预计更新100篇策略(更新中)+36篇backtrader讲解(已完成)+backtrader源码分析。

错误反馈：

问题咨询：

系统当前共有 481 篇文章

量化的不仅是股票、期货、期权、债券等投资交易工具，更是量化自我，量化是人生漫长的修行

专注量化