想要找一份质量高的数据很难,对个人投资者而言更是如此,我们只能在不完美中不断前行了。
前面的策略中使用了聚宽的数据,后期的股票策略的数据计划使用baostock的数据去实现。
首先,从优矿上下载了股票的基本信息,包含历史上的已经退市的股票。
然后从baostock上下载相应的行情数据,并下载复权因子,然后合并到行情数据中。
这样虽然已经避免了一部分坑,但是限于baostock本身的限制,有一部分退市的合约的股票数据仍然没有。下载的数据都是使用的后复权数据,并且删除了成交量为0和成交量为“”的交易日。参考代码如下:
import baostock as bsimport pandas as pdimport numpy as npimport datetimeimport os bs.login()# 读取股票基本信息info_df =pd.read_csv("./data/股票基础信息.csv",index_col=0)convert={"XSHG":"sh","XSHE":"sz"}info_df['code']=[convert[y]+"."+x.split(".")[0] for x,y in list(zip(info_df['secID'],info_df['exchangeCD']))]# 下载和更新每日数据data_root = "./data/stock/baostock/day/"file_list = os.listdir(data_root)for i,row in info_df.iterrows(): code = row['code'] # print(code) fields = "date,code,open,high,low,close,preclose,volume,amount,adjustflag,turn,\ tradestatus,pctChg,peTTM,pbMRQ,psTTM,pcfNcfTTM,isST" fromdate = row['listDate'] end_date = row['delistDate'] # if np.isnan(end_date): if not isinstance(end_date,str): today = datetime.date.today() end_date = today.strftime('%Y-%m-%d') frequency = "d" adjustflag = "1" # 第一次下载数据 if code+".csv" not in file_list: try: rs = bs.query_history_k_data_plus(code, fields, start_date = fromdate, end_date = end_date, frequency = frequency, adjustflag = adjustflag) data_list = [] while (rs.error_code == '0') & rs.next(): # 获取一条记录,将记录合并在一起 data_list.append(rs.get_row_data()) df = pd.DataFrame(data_list, columns=rs.fields) if len(df)>0: df.to_csv(data_root+code+".csv", index = False) # except: # print(f"下载{code}成功") except: print(f"下载{code}失败") # 更新数据 if code+".csv" in file_list: df = pd.read_csv(data_root+code+".csv") df_end_date = list(df['date'])[-1] if df_end_date<end_date: rs = bs.query_history_k_data_plus(code, fields, start_date = df_end_date, end_date = end_date, frequency = frequency, adjustflag = adjustflag) data_list = [] while (rs.error_code == '0') & rs.next(): # 获取一条记录,将记录合并在一起 data_list.append(rs.get_row_data()) data = pd.DataFrame(data_list, columns=rs.fields) if len(data)>0: df = df.append(data) df = df[df['volume']!=""] df['volume']=df['volume'].astype("float") df = df[df['volume']>0] df.to_csv(data_root+code+".csv", index = False) # 获取复权因子data_root = "./data/stock/baostock/day/"file_list = os.listdir(data_root)factor_df = pd.DataFrame()for i,row in info_df.iterrows(): code = row['code'] try: print(code) rs_list = [] rs_factor = bs.query_adjust_factor(code=code, start_date="1990-01-01", end_date="2021-09-12") while (rs_factor.error_code == '0') & rs_factor.next(): rs_list.append(rs_factor.get_row_data()) result_factor = pd.DataFrame(rs_list, columns=rs_factor.fields) if len(result_factor)>0: factor_df = factor_df.append(result_factor) except: print(f"下载{code}失败")factor_df.to_csv("./data/baostock复权数据.csv")# 把复权因子合并到行情数据中file_list = os.listdir("./data/stock/baostock/day/")for file in file_list: df = pd.read_csv("./data/stock/baostock/day/"+file) df1=factor_df[factor_df['code']==file[:-4]] if len(df1)==0: df['backAdjustFactor']=[1]*len(df) print(file,"没有除权除息") else: df1['date']=df1['dividOperateDate'] df1 = df1[['date','backAdjustFactor']] df = pd.merge(df,df1,on=['date'],how='left') df = df.fillna(method="ffill") df.to_csv("./data/stock/baostock/day/"+file,index=False)
数据下载地址:
股票基础数据
链接: https://pan.baidu.com/s/1QkT-8mvstHd9gVVG_ZRebA 提取码: m7ke 复制这段内容后打开百度网盘手机App,操作更方便哦股票数据
链接: https://pan.baidu.com/s/1IVs6kiqxYffyyIuXhx3EQg 提取码: uqus 复制这段内容后打开百度网盘手机App,操作更方便哦
日线数据搞了一个下午,准备去做个数据库,以后定期更新到数据库里面。然后开始写股票策略。时间过的真快,我们大概都缺时间,有一种陷入时间稀缺的陷阱中的感觉。
智慧、心灵、财富,总要有一个在路上,愿我们能在人生的道路上,不断成长、不断成熟~~~
感兴趣可以关注我的专栏:
my_quant_study_note:分享一些关于量化投资、量化交易相关的思考
backtrader量化投资回测与交易:本专栏免费,分享backtrader相关的内容。
量化投资神器-backtrader源码解析-从入门到精通:本专栏目前收费299元,预计更新100篇策略(更新中)+36篇backtrader讲解(已完成)+backtrader源码分析。
系统当前共有 426 篇文章