不懂计算机的人如何构建多因子选股模型?

2024-05-18 06:45

1. 不懂计算机的人如何构建多因子选股模型?

多因子选股模型的前提是有完善的量化交易数据,有了量化才能够从中提取规律找到目标因子,最后才是建立模型。对于新人来说这一过程非常复杂,为了简化,题主可以试试策略炒股通这款App,它已经为用户建立了量化模型,而且策略因子也非常丰富,我最近在用效果不赖。

不懂计算机的人如何构建多因子选股模型?

2. 如何进行单因子,双因子,三因子和四因子模型比较sem 验证性因子分析

在Amos、Mplus、Lisrel等结构方程模型中,都可以比较方便的验证这几个模型。结构方程模型分析方面,我可以帮您。(南心网)

3. 在进行因子分析时,要求所使用的变量必须是什么变量

因子分析从研究变量内部相关的依赖关系出发,把一些具有错综复杂关系的变量归结为少数几个综合因子的一种多变量统计分析方法。
它的基本思想是将观测变量进行分类,将相关性较高,即联系比较紧密的分在同一类中,而不同类变量之间的相关性则较低,那么每一类变量实际上就代表了一个基本结构,即公共因子。
对于所研究的问题就是试图用最少个数的不可测的所谓公共因子的线性函数与特殊因子之和来描述原来观测的每一分量。
因子分析模型描述如下:
⑴X=(x1,x2,…,xp)¢是可观测随机向量,均值向量E(X)=0,协方差阵Cov(X)=∑,且协方差阵∑与相关矩阵R相等(只要将变量标准化即可实现)。
⑵F=(F1,F2,…,Fm)¢(m<p)是不可测的向量,其均值向量E(F)=0,协方差矩阵Cov(F)=I,即向量的各分量是相互独立的。
⑶e=(e1,e2,…,ep)¢与F相互独立,且E(e)=0,e的协方差阵∑是对角阵,即各分量e之间是相互独立的,则模型:
x1=a11F1+a12F2+…+a1mFm+e1
x2=a21F1+a22F2+…+a2mFm+e2
………
xp=ap1F1+ap2F2+…+apmFm+ep
称为因子分析模型,由于该模型是针对变量进行的,各因子又是正交的,所以也称为R型正交因子模型。
其矩阵形式为:x=AF+e.
其中:
x=,A=,F=,e=
这里,
⑴m£p;
⑵Cov(F,e)=0,即F和e是不相关的;
⑶D(F)=Im,即F1,F2,…,Fm不相关且方差均为1;
D(e)=,即e1,e2,…,ep不相关,且方差不同。
我们把F称为X的公共因子或潜因子,矩阵A称为因子载荷矩阵,e称为X的特殊因子。
A=(aij),aij为因子载荷。数学上可以证明,因子载荷aij就是第i变量与第j因子的相关系数,反映了第i变量在第j因子上的重要性。

扩展资料:因子分析的核心问题有两个:一是如何构造因子变量;二是如何对因子变量进行命名解释。因此,因子分析的基本步骤和解决思路就是围绕这两个核心问题展开的。
(i)因子分析常常有以下四个基本步骤:
⑴确认待分析的原变量是否适合作因子分析。
⑵构造因子变量。
⑶利用旋转方法使因子变量更具有可解释性。
⑷计算因子变量得分。
(ii)因子分析的计算过程:
⑴将原始数据标准化,以消除变量间在数量级和量纲上的不同。
⑵求标准化数据的相关矩阵;
⑶求相关矩阵的特征值和特征向量;
⑷计算方差贡献率与累积方差贡献率;
⑸确定因子:
设F1,F2,…,Fp为p个因子,其中前m个因子包含的数据信息总量(即其累积贡献率)不低于80%时,可取前m个因子来反映原评价指标;
⑹因子旋转:
若所得的m个因子无法确定或其实际意义不是很明显,这时需将因子进行旋转以获得较为明显的实际含义。
⑺用原指标的线性组合来求各因子得分:
采用回归估计法,Bartlett估计法或Thomson估计法计算因子得分。
⑻综合得分
以各因子的方差贡献率为权,由各因子的线性组合得到综合评价指标函数。
F=(w1F1+w2F2+…+wmFm)/(w1+w2+…+wm)
此处wi为旋转前或旋转后因子的方差贡献率。
⑼得分排序:利用综合得分可以得到得分名次。
参考资料:
百度百科——因子分析法
百度百科——因子分析

在进行因子分析时,要求所使用的变量必须是什么变量

4. 如何用SPSS进行多因素方差分析

多因素方差分析是对一个独立变量是否受一个或多个因素或变量影响而进行的方差分析。SPSS调用“Univariate”过程,检验不同水平组合之间因变量均数,由于受不同因素影响是否有差异的问题。在这个过程中可以分析每一个因素的作用,也可以分析因素之间的交互作用,以及分析协方差,以及各因素变量与协变量之间的交互作用。该过程要求因变量是从多元正态总体随机采样得来,且总体中各单元的方差相同。但也可以通过方差齐次性检验选择均值比较结果。因变量和协变量必须是数值型变量,协变量与因变量不彼此独立。因素变量是分类变量,可以是数值型也可以是长度不超过8的字符型变量。固定因素变量(Fixed Factor)是反应处理的因素;随机因素是随机地从总体中抽取的因素。

[例子]

研究不同温度与不同湿度对粘虫发育历期的影响,得试验数据如表5-7。分析不同温度和湿度对粘虫发育历期的影响是否存在着显著性差异。

表5-7 不同温度与不同湿度粘虫发育历期表


 相对湿度(%) 
温度℃
 
重 复
 

1
 
2
 
3
 
4
 

100
 
25
 
91.2
 
95.0
 
93.8
 
93.0
 

27
 
87.6
 
84.7
 
81.2
 
82.4
 

29
 
79.2
 
67.0
 
75.7
 
70.6
 

31
 
65.2
 
63.3
 
63.6
 
63.3
 

80
 
25
 
93.2
 
89.3
 
95.1
 
95.5
 

27
 
85.8
 
81.6
 
81.0
 
84.4
 

29
 
79.0
 
70.8
 
67.7
 
78.8
 

31
 
70.7
 
86.5
 
66.9
 
64.9
 

40
 
25
 
100.2
 
103.3
 
98.3
 
103.8
 

27
 
90.6
 
91.7
 
94.5
 
92.2
 

29
 
77.2
 
85.8
 
81.7
 
79.7
 

31
 
73.6
 
73.2
 
76.4
 
72.5
 

数据保存在“DATA5-2.SAV”文件中,变量格式如图5-1。 


 下载信息  [文件大小:1.02 KB 下载次数: 次] 
 点击下载文件:DATA5-2.rar 
 
1)准备分析数据

在数据编辑窗口中输入数据。建立因变量历期“历期”变量,因素变量温度“A”,湿度为“B”变量,重复变量“重复”。然后输入对应的数值,如图5-6所示。或者打开已存在的数据文件“DATA5-2.SAV”。

如何用SPSS进行多因素方差分析?

 图5-6 数据输入格式

2)启动分析过程

点击主菜单“Analyze”项,在下拉菜单中点击“General Lwww.hbbz08.com inear Model”项,在右拉式菜单中点击“Univariate”项,系统打开单因变量多因素方差分析设置窗口如图5-7。

如何用SPSS进行多因素方差分析?
 图5-7 多因素方差分析窗口

 3)设置分析变量

设置因变量: 在左边变量列表中选“历期”,用如何用SPSS进行多因素方差分析?向右拉按钮选入到“Dependent Variable:”框中。

设置因素变量: 在左边变量列表中选“a”和“b”变量,用如何用SPSS进行多因素方差分析?向右拉按钮移到“Fixed Factor(s):”框中。可以选择多个因素变量。由于内存容量的限制,选择的因素水平组合数(单元数)应该尽量少。

设置随机因素变量: 在左边变量列表中选“重复”变量,用向右拉按钮移到“到Random Factor(s)”框中。可以选择多个随机变量。

设置协变量:如果需要去除某个变量对因素变量的影响,可将这个变量移到“Covariate(s)”框中。

设置权重变量:如果需要分析权重变量的影响,将权重变量移到“WLS Weight”框中。 

4)选择分析模型

在主对话框中单击“Model”按钮,打开“Univariate Model”对话框。见图5-8。

如何用SPSS进行多因素方差分析?

图5-8 “Univariate Model” 定义分析模型对话框

在Specify Model栏中,指定分析模型类型。

① Full Factorial选项

此项为系统默认的模型类型。该项选择建立全模型。全模型包括所有因素变量的主效应和所有的交互效应。例如有三个因素变量,全模型包括三个因素变量的主效应、两两的交互效应和三个因素的交互效应。选择该项后无需进行进一步的操作,即可单击“Continue”按钮返回主对话框。此项是系统缺省项。

② Custom选项

建立自定义的分析模型。选择了“Custom”后,原被屏蔽的“Factors & Covariates”、“Model”和“Build Term(s)”栏被激活。在“Factors & Covariates”框中自动列出可以作为因素变量的变量名,其变量名后面的括号中标有字母“F”;和可以作为协变量的变量名,其变量名后面的括号中标有字母“C”。这些变量都是由用户在主对话框中定义过的。根据表中列出的变量名建立模型,其方法如下:
 在“Build Term(s)”栏右面的有一向下箭头按钮(下拉按钮),单击该按钮可以展开一小菜单,在下拉菜单中用鼠标单击某一项,下拉菜单收回,选中的交互类型占据矩形框。有如下几项选择:
Interaction 选中此项可以指定任意的交互效应;
Main effects 选中此项可以指定主效应;
All 2-way 指定所有2维交互效应;
All 3-way 指定所有3维交互效应;
All 4-way 指定所有4维交互效应
All 5-way 指定所有5维交互效应。

③ 建立分析模型中的主效应:

在“Build Term(s)”栏用下拉按钮选中主效应“Main effects”。

在变量列表栏用鼠标键单击某一个单个的因素变量名,该变量名背景将改变颜色(一般变为蓝色),单击“Build Term(s)”栏中的右拉箭头按钮,该变量出现在“Model”框中。一个变量名占一行称为主效应项。欲在模型中包括几个主效应项,就进行几次如上的操作。也可以在标有“F”变量名中标记多个变量同时送到“Model”框中。

本例将“a”和“b”变量作为主效应,按上面的方法选送到“Model”框中。

④ 建立模型中的交互项

要求在分析模型中包括哪些变量的交互效应,可以通过如下的操作建立交互项。

例如,因素变量有“a(F)”和“b(F)”,建立它们之间的相互效应。
连续在“Factors &”框的变量表中单击“a(F)”和“b(F)”变量使其选中。
单击“Build Term(s)”栏内下拉按钮,选中交互效应“Interaction”项。
单击“Build Term(s)”栏内的右拉按钮,“a*b”交互效应就出现在“Model”框中,模型增加了一个交互效应项:a*b

⑤ Sum of squares 栏分解平方和的选择项
Type I项,分层处理平方和。仅对模型主效应之前的每项进行调整。一般适用于:平衡的AN0VA模型,在这个模型中一阶交互
          效应前指定主效应,二阶交互效应前指定一阶交互效应,依次类推;多项式回归模型。嵌套模型是指第一效应嵌套在第二
          效应里,第二效应嵌套在第三效应里,嵌套的形式可使用语句指定。
Type II项,对其他所有效应进行调整。一般适用于:平衡的AN0VA模型、主因子效应模型、回归模型、嵌套设计。
Type III项,是系统默认的处理方法。对其他任何效应均进行调整。它的优势是把所估计剩余常量也考虑到单元频数中。对没
          有缺失单元格的不平衡模型也适用,一般适用于:Type I、Type II所列的模型:没有空单元格的平衡和不平衡模型。
Type IV顶,没有缺失单元的设计使用此方法对任何效应F计算平方和。如果F不包含在其他效应里,Type IV = Type IIIl =
          TypeII。如果F包含在其他效应里,Type IV只对F的较高水平效应参数作对比。一般适用于:Type I、Type lI所列模型;
          没有空单元的平衡和不平衡模型。

⑥ Include intercept in model栏选项

系统默认选项。通常截距包括在模型中。如果能假设数据通过原点,可以不包括截距,即不选择此项。 

5)选择比较方法

在主对话框中单击“Contrasts”按钮,打开“Contrasts”比较设置对话框,如图5-9所示。

如何用SPSS进行多因素方差分析?

5. 多因素套利模型计算,求详细解答

线性多因素模型的一般表达为r = a + B * F + ε。
根据套利的定义,如果套利机会存在,套利组合不承担风险,对任何因素的敏感性为零,即B pj=0,J=1,2,..K N需大于J。
统计套利的基本思路是运用统计分析工具对一组相关联的价格之间的关系的历史数据进行研究分析,研究该关系在历史上的稳定性,并估计其概率分布,确定该分布中的极端区域,即否定域,当真实市场上的价格关系进入否定域时,则认为该种价格关系不可长久维持,套利者有较高成功概率进场套利。

扩展资料:
注意事项:
1、由于实施套利交易一般都有一买一卖的过程,如果资金量较大,先操作的一方将对另一方操作带来不利,如果先卖期指,则可能拖累指数,导致套利空间缩小,因为股指现货变化相对期指有一定滞后,因此,建议正向套利先买入现货,再沽空期指合约。
2、套利交易不单是风险转移到投机者,同时也是机构间的博弈,因此在机构拼人才的同时,软硬件系统的效率也是关键的因素。如果同时捕捉到套利机会,谁的软件下单速度快,谁的硬件平台先进,谁的通道优先,谁将占有先机。
3、国际上套利统计数据显示,机构不但拼技术、人才和设备,到最后最重要的却是资金成本。谁拥有最低的融资成本,谁就能拥有较大的优势。
参考资料来源:百度百科-套利定价理论

多因素套利模型计算,求详细解答

6. 机器学习怎样应用于量化交易

机器学习怎样应用于量化交易(一)

曾有朋友问过,国内现在量化领域机器学习应用的少,是否因为效果不如简单的策略。其实,把机器学习应用在量化交易上始终面临着两难,却并不是无解的两难。很多时候并不是机器学习不work,而是真正懂如何用正确科学的统计思维使用Machine Learning的人才太少。
机器学习涉及到特征选择、特征工程、模型选择、数据预处理、结果的验证和分析等一整套建模流程,广义角度来说就不单单是模型选择的问题。所以,如果认为“用支持向量机成功预测股票涨跌” 这样的研究,就是把机器学习应用于量化交易,这种狭义的认识无疑是买椟还珠,对机器学习领域散落遍地的珍珠视而不见。如果把机器学习的崛起放在历史进程中考量,无非就是趋势的延续:现在,可通过系统的数据分析证实过去模糊不定的经验,机器学习算法将未曾被察觉的规律得以浮现纸面。
在我看来,未来的发展概有两个方向:
1.针对量化交易的统计学习算法被提出,使其适合于噪声大,分布不稳定的金融数据分析;
2.对于机器学习的热情回归理性,从工具为导向回归到问题为导向。
针对如何以问题为导向,在机器学习算法中挑选合适的工具,分享一些思路。
1.多因子模型的因子权重计算
当我们在构建多因子模型且已经选定了一系列因子之后,要如何根据不同的市场情况调整各个因子的权重呢?在以往的研究中发现,与其它算法相比较,随机森林算法对于存在非线性、噪音和自变量共线性的训练集的分析结果更出色。所以,目前在多因子模型的权重上,采用当期收益率对上期因子进行随机森林回归分析,以确定下一期多因子模型的因子权重。
2.缺失值处理
处理缺失值在金融的量化分析中是个无可避免的问题。选取合理的缺失值处理方法,依赖于数据本身的特点、数据缺失的情况、其对应的经济学意义,以及我们需要使用数据进行何种计算。在尝试构建多因子模型时,我们选择了两种缺失值替换方法:(1)采用期望最大化算法 来用同一变量的已知数据对缺失值进行极大似然估计。(2)把模型中包含的所有因子作为特征变量,并赋予其相同的权重,再采用机器学习中的K-近邻算法来寻找最相似的标的,保证缺失值替换后,不会强化一部分因子的影响力。
其实在量化领域,机器学习解决着线性模型天生的缺陷或弊端,所以还是有着很深的介入的。除去凸优化、降维(提取市场特征)等领域的应用,目前“非动态性”和“非线性”是两个重要的弊端。金融关系之间并非静态,很多时候也不是线性的。统计学习的优势此时就会体现出来,它们能够迅速地适应市场,或者用一种更“准确的”方式来描述市场。
在国内,机器学习在量化内应用跟领域有很大的关系,跟频率也有很大的关系。比如,CTA的运用可能就要多于股票,它处理数据的维度要远小于股票,获取市场的长度和动态又强于股票。股票市场的momentum要弱于期货市场的momentum,它的趋势与股票相比更明显和低噪声。这些特征对于机器学习发挥作用都更加有利。
很可能国内一些交易执行算法的设计上就借鉴了机器学习。我们可以通过学习订单薄特征,对下一期盘口变化做一些概率上的预测,经过一定样本的训练之后,可以显著地提升算法表现。
而我仍谨慎看好深度学习等机器学习方法的原因在于,在认识市场上,现行的大部分方法与这些方法并不在一个维度上,这个优势让它们与其他方法相比,捕捉到更多的收益。也就是说,一个新的认识市场的角度才能带来alpha。

7. 怎样应用SPSS进行多因素Logistic 回归分析


怎样应用SPSS进行多因素Logistic 回归分析

8. 溶质迁移模型是多因子还是单因子

量化选股就是利用数量化的方法选择股票组合,期望该股票组合能够获得超越基准收益率的行为,研究表明,板块、行业轮动在者的交易中最为获利的盈利模式是基于行业层面进行周期性和防御性的轮动配置,这也是者最普遍采用的策略。此外,周期性股票在扩张性货币政策时期表现较好,而在紧缩环境下则支持非周期性行业。行业收益差在扩张性政策和紧缩性政策下具有显著的差异。
多因子模型是应用最广泛的一种选股模型,基本原理是采用一系列的因子作为选股标准,满足这些因子的股票则被买入,不满足的则卖出。多因子模型相对来说比较稳定,因为在不同市场条件下,总有一些因子会发挥作用。