作者:yunjinqi 类别:
日期:2021-12-23 17:59:21
阅读:2106 次 消耗积分:0 分
想要找一份质量高的数据很难,对个人投资者而言更是如此,我们只能在不完美中不断前行了。
前面的策略中使用了聚宽的数据,后期的股票策略的数据计划使用baostock的数据去实现。
首先,从优矿上下载了股票的基本信息,包含历史上的已经退市的股票。
然后从baostock上下载相应的行情数据,并下载复权因子,然后合并到行情数据中。
这样虽然已经避免了一部分坑,但是限于baostock本身的限制,有一部分退市的合约的股票数据仍然没有。下载的数据都是使用的后复权数据,并且删除了成交量为0和成交量为“”的交易日。参考代码如下:
import baostock as bsimport pandas as pdimport numpy as npimport datetimeimport os
bs.login()# 读取股票基本信息info_df =pd.read_csv("./data/股票基础信息.csv",index_col=0)convert={"XSHG":"sh","XSHE":"sz"}info_df['code']=[convert[y]+"."+x.split(".")[0] for x,y in list(zip(info_df['secID'],info_df['exchangeCD']))]# 下载和更新每日数据data_root = "./data/stock/baostock/day/"file_list = os.listdir(data_root)for i,row in info_df.iterrows():
code = row['code']
# print(code)
fields = "date,code,open,high,low,close,preclose,volume,amount,adjustflag,turn,\
tradestatus,pctChg,peTTM,pbMRQ,psTTM,pcfNcfTTM,isST"
fromdate = row['listDate']
end_date = row['delistDate']
# if np.isnan(end_date):
if not isinstance(end_date,str):
today = datetime.date.today()
end_date = today.strftime('%Y-%m-%d')
frequency = "d"
adjustflag = "1"
# 第一次下载数据
if code+".csv" not in file_list:
try:
rs = bs.query_history_k_data_plus(code, fields, start_date = fromdate, end_date = end_date,
frequency = frequency, adjustflag = adjustflag)
data_list = []
while (rs.error_code == '0') & rs.next(): # 获取一条记录,将记录合并在一起
data_list.append(rs.get_row_data())
df = pd.DataFrame(data_list, columns=rs.fields)
if len(df)>0:
df.to_csv(data_root+code+".csv", index = False)
# except:
# print(f"下载{code}成功")
except:
print(f"下载{code}失败")
# 更新数据
if code+".csv" in file_list:
df = pd.read_csv(data_root+code+".csv")
df_end_date = list(df['date'])[-1]
if df_end_date<end_date:
rs = bs.query_history_k_data_plus(code, fields, start_date = df_end_date, end_date = end_date,
frequency = frequency, adjustflag = adjustflag)
data_list = []
while (rs.error_code == '0') & rs.next(): # 获取一条记录,将记录合并在一起
data_list.append(rs.get_row_data())
data = pd.DataFrame(data_list, columns=rs.fields)
if len(data)>0:
df = df.append(data)
df = df[df['volume']!=""]
df['volume']=df['volume'].astype("float")
df = df[df['volume']>0]
df.to_csv(data_root+code+".csv", index = False)
# 获取复权因子data_root = "./data/stock/baostock/day/"file_list = os.listdir(data_root)factor_df = pd.DataFrame()for i,row in info_df.iterrows():
code = row['code']
try:
print(code)
rs_list = []
rs_factor = bs.query_adjust_factor(code=code, start_date="1990-01-01", end_date="2021-09-12")
while (rs_factor.error_code == '0') & rs_factor.next():
rs_list.append(rs_factor.get_row_data())
result_factor = pd.DataFrame(rs_list, columns=rs_factor.fields)
if len(result_factor)>0:
factor_df = factor_df.append(result_factor)
except:
print(f"下载{code}失败")factor_df.to_csv("./data/baostock复权数据.csv")# 把复权因子合并到行情数据中file_list = os.listdir("./data/stock/baostock/day/")for file in file_list:
df = pd.read_csv("./data/stock/baostock/day/"+file)
df1=factor_df[factor_df['code']==file[:-4]]
if len(df1)==0:
df['backAdjustFactor']=[1]*len(df)
print(file,"没有除权除息")
else:
df1['date']=df1['dividOperateDate']
df1 = df1[['date','backAdjustFactor']]
df = pd.merge(df,df1,on=['date'],how='left')
df = df.fillna(method="ffill")
df.to_csv("./data/stock/baostock/day/"+file,index=False)
数据下载地址:
股票基础数据
链接: https://pan.baidu.com/s/1QkT-8mvstHd9gVVG_ZRebA 提取码: m7ke 复制这段内容后打开百度网盘手机App,操作更方便哦
股票数据
链接: https://pan.baidu.com/s/1IVs6kiqxYffyyIuXhx3EQg 提取码: uqus 复制这段内容后打开百度网盘手机App,操作更方便哦
日线数据搞了一个下午,准备去做个数据库,以后定期更新到数据库里面。然后开始写股票策略。时间过的真快,我们大概都缺时间,有一种陷入时间稀缺的陷阱中的感觉。
智慧、心灵、财富,总要有一个在路上,愿我们能在人生的道路上,不断成长、不断成熟~~~
感兴趣可以关注我的专栏:
my_quant_study_note:分享一些关于量化投资、量化交易相关的思考
backtrader量化投资回测与交易:本专栏免费,分享backtrader相关的内容。
量化投资神器-backtrader源码解析-从入门到精通:本专栏目前收费299元,预计更新100篇策略(更新中)+36篇backtrader讲解(已完成)+backtrader源码分析。