数学中国

 找回密码
 注册
搜索
热搜: 活动 交友 discuz
12
返回列表 发新帖
楼主: luyuanhong

洪永淼教授发文“概率论与统计学在经济学中的应用”! 前沿和经典方法应有尽有!

[复制链接]
 楼主| 发表于 2020-12-31 19:54 | 显示全部楼层
十一、 模型设定、拟合优度与模型风险

当用一个统计模型解释观测数据时,常常会使用拟合优度(goodness of fit)来测度模型的表现,比如一个线性回归模型的拟合优度一般用所谓的 R^2 测度,R^2 越高表示线性模型能够解释因变量变化的程度也就越大。但是 R^2 高,并不意味着线性回归模型是正确设定,反之 R^2 低,也不一定是模型误设。在所谓的“伪回归”模型中(Granger & Newbold, 1974),解释变量和因变量是互相独立的随机游走过程(因此是非平稳时间序列),但其 R^2 接近 1 。

什么是正确模型设定呢?假设我们对一个条件均值建模,其中因变量代表消费,解释变量代表收入,这个条件均值是一个消费函数,即给定收入水平,预期的消费能达到多高。对这个条件均值取一阶导数,便得到所谓的边际消费倾向(marginal propensity to consume, MPC),即收入每增加1元,预期的消费能增加多少。消费函数是凯恩斯经济学“乘数效应”(multiplier effects)的核心概念,各种货币政策与财政政策的乘数效应的大小取决于边际消费倾向的高低。很明显,如果消费函数是收入的线性函数,那么边际消费倾向是一个常数;如果消费函数是一个非线性函数,如收入的二次项函数,则边际消费倾向就不是常数,而会随着收入的变化而变化。如果条件均值即真实消费函数是一个线性函数,我们说线性模型是消费函数的正确设定。反之,如果真实消费函数是一个非线性(如二次项)函数,那么线性模型是一个误设模型,其解释变量收入的系数并不等于真实的边际消费倾向。可以看出,模型的正确设定是赋予模型参数正确经济解释的一个前提条件。

模型误设可能会导致其他严重的后果。在数字经济时代,很多经济交易特别是金融交易与银行业务,都是基于统计模型或机器学习,比如说算法交易、量化投资等。模型误设会导致什么后果呢?可能会产生很大的金融衍生产品定价误差,过高或者过低地估计某个金融产品的价格,或者在风险管理导致严重的后果,比如信用风险模型低估了小微企业的信用风险,从而出现很高的贷款不良率。这种因为模型误设可能带来的严重后果,称为模型风险(model risk)。金融学有一个专门领域在研究模型风险(参见Morini, 2011)。

导致模型风险的原因很多,模型误设是一个主要原因。另外一个原因是经济出现结构性的变化,即经济结构具有时变性。模型可能以前预测得不错,但是在结构发生变化的条件下,原有模型,包括模型参数或模型的函数形式没有更新,也会导致模型误设。还有另外一种情形,模型在正常的市场波动条件下表现不错,但是在极端的市场波动条件下,就不再适用。比如上世纪90年代,长期资本投资公司在俄罗斯的投资遭遇很大的损失,就是因为他们所用的信用风险模型无法在极端的市场波动条件下准确地估计信用风险。2007年的美国次贷危机,基于流行的高斯连接模型(Gaussian copula model)也未能很好地刻画极端市场波动条件下市场之间的关联。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-12-31 19:55 | 显示全部楼层
十二、 机器学习与经济因果关系

随着大数据时代的到来,机器学习已经成为现代统计学的一个重要方法与工具。所谓机器学习,就是利用计算机算法程序自动分析大数据,基于现有数据或训练数据进行样本外预测(包括分类预测)。机器学习预测就是通过一定的算法预测未知的数据或数据类型。在理论上,预测可表示为一个数学优化问题,而这个数学优化问题可通过设计计算机算法程序来自动实施。为了获得精准的样本外预测,一般将数据分成至少两个部分,一个部分是训练数据(training data),另外一部分是检验数据(test data)。训练数据用来训练计算机算法程序,挖掘训练数据中系统性的变量特征与变量之间的统计关系,比如说相关性,然后用以预测未知数据。为了得到较好的样本外预测,必须防止训练数据过度拟合(overfitting)。所谓过度拟合是指从训练数据中过度挖掘变量特征与变量之间的统计关系,这些统计关系有一些在未知数据中会重复出现,但另外一些关系只会在训练数据中出现,在未知数据中并不会再次出现。防止过度拟合就是要防止挖掘只会出现在训练数据中的关系,并用以预测未知数据。为了防止这种可能性,一般是将经过训练的算法应用于检验数据,同时引进一个惩罚项,惩罚对训练数据的过度拟合。因此机器学习本质上是一个数学优化问题,目的是为了达到样本外的最佳预测,实现方式是一个计算机算法程序。一般情况下,机器学习一般并不假设一个统计参数模型(如线性回归模型),因此具有灵活的数据拟合能力,在某种意义上,机器学习本质上更接近非参数建模,如决策树(decision tree)、随机森林(random forest)、k近邻算法(k-nearest neighbors, KNN)、人工神经网络(artificial neutral network, ANN)与深度学习(deep learning)等,参见Biau, Devroye & Lugosi(2008),Breiman(2001),Scornet, Biau & Vert(2015),White(1992)等。

在实际应用中,很多数情况下机器学习预测是比较准确的,而这种预测并不是根据经济因果关系,而是通过挖掘数据中的变量特征与变量之间的统计关系,比如说相关性或预测关系,通过这些统计关系来实现精准预测。

那么,在大数据时代,是不是只要相关性,不需要因果关系了?其实不是。经济学研究的最主要目的还是为了挖掘经济变量之间的因果关系,从而揭示经济运行规律。一个经济理论有没有真正的解释力,必须基于可验证的因果关系,单凭预测关系、相关关系并不具有理论解释力。那么机器学习是否能够帮助我们识别与测度经济因果关系呢?所谓因果关系,是指在其他变量不变Z的条件下,通过改变解释变量X,观测结果变量Y是否随之改变。在实验科学中,通过可控实验可以控制其他因素Z不变,只让解释变量X变化,然后观测结果变量Y是否变化。实验方法因此是测度从X到Y的因果关系的最好方法。但是在经济学与社会科学中,一般情况下做不到可控实验,经济数据大都是观测数据,我们观测到的结果变量Y,是由政策变量X以及其他因素Z共同作用的结果。我们没有办法控制其他因素Z不变,只能控制政策变量X的变化。在这种情况下,识别与测度经济变量之间的因果关系,就存在更大的挑战性。

统计学的虚拟事实估计方法(counterfactual estimation)可用来识别与测度经济因果关系(参见Pearl 2009; Varian 2016)。在现实经济中,实施一个政策X时,其他变量Z也在变化,我们观测到的因变量Y是政策X以及其他变量Z共同作用的结果。所谓的虚拟事实,是指假设政策X没有实施,而其他不可控因素Z继续变化,此时因变量的结果 Y* 称为虚拟事实。在政策已实施的现实条件下,假设政策没有实施,这本身是一种虚拟假设,这种情况下因变量的结果 Y* 是观测不到的,所以叫做虚拟事实。虚拟事实 Y* 可以通过机器学习精准地估计,这种估计本质上是一种样本外预测。样本外预测不一定是未来时间上的样本外,也可以是另外一个未知的样本。在这里,机器学习之所以能够精准估计虚拟事实图片,是通过挖掘大数据的相关性或者预测关系,而不是通过经济因果关系,但这种精准预测有助于我们识别经济政策X对因变量Y的因果关系,并测度政策效应 Y-Y* 。因此,机器学习预测和测度经济因果关系,两者并不矛盾。
回复 支持 反对

使用道具 举报

 楼主| 发表于 2020-12-31 19:56 | 显示全部楼层
十三、 结束语

这篇文章对概率论与统计学一些最基本的概念、思想、方法与工具所包含的经济含义,以及它们在经济学的一些重要应用,做了详细的阐述。本文的一个主要目的是想说明,在经济学研究越来越多使用定量方法的时候,需要注意定量方法的可解释性特别是其经济可解释性,同时理解定量分析方法如何应用于经济分析之中。

本文所讨论的例子没有也不可能覆盖所有概率论与统计学可以应用的范围。我们希望本文能够通过抛砖引玉,让大家多关注概率论与统计学在经济学应用的实例,更加丰富这些实例。通过这种方式,使经济管理类的学生认识到学习经济数学特别是概率论与统计学的重要性,同时更深刻理解概率论与统计学的经济含义及其在经济学的应用。

另一方面,本文只是讨论概率论与统计学中一些基本的概念、思想、方法与工具在经济学的应用。还有很多比较高深的概率论与统计学方法与工具,本文没有讨论到,但是它们在经济学中也有重要的应用。例如,在时间序列分析中,任何平稳时间序列可以被分解为互相正交的不同频率的周期函数之和,每个频率的权重大小可由谱密度函数(spectral density function)来刻画(参见Hong, 2020)。因此,如果谱函数在某个频率出现一个峰值,那就意味着该频率的随机权重最大,因而主导着平稳时间序列的周期性动态变化。若应用于宏观经济时间序列数据,谱密度函数可以分析和刻画经济波动与经济周期(如Hamilton, 1994, Chapter 6)。另一个例子,常见的概率论与统计学主要关注随机变量或随机向量的概率法则,没有涵盖随机集(random sets)的概率法则。所谓随机集,是指取值为一个集合的随机变量。最简单的随机集例子是一维随机集,即区间随机变量(interval-valued random variable),其取值不是一个点,而是一个区间。常见例子包括每天的最低温和最高温、每个交易日的最低股价和最高股价、每天的低血压和高血压、每笔交易的买卖价格(bid-ask prices)等分别组成的区间数据。与点数据相比,区间数据包含更多信息,但是区间数据长期没有得到有效利用。区间数据建模具有很大的挑战性,需要用到随机集概率论(参见Li, Ogura & Kreinovich, 2002),甚至需要定义区间运算法则与两个区间随机变量的协方差,需要建立区间随机变量的大数定律和中心极限定理等。Han, Hong & Wang(2018),Han et al.(2016)和Sun et al.(2018)率先提出了时间序列自回归区间模型,在一个统一的分析框架中建立了模型、估计、检验的统计理论与方法。区间数据建模在经济学有很广泛的应用空间,包括宏观经济区间管理(参见孙玉莹、洪永淼和汪寿阳,2020)。这些以及其他比较高深的概率论与统计学在经济学的应用,将在后续研究中给予阐明。

参考文献:

Adrian, T., & Brunnermeier, M. K. (2011). CoVaR. American Economic Review, 106(7), 1705-1741.
Angrist, J., Azoulay, P., Ellison, G., Hill, R., & Lu, S. F. (2017). Economic Research Evolves: Fields and Styles. American Economic Review, 107(5), 293-297.
Bachelier, L. (2011). Louis Bachelier's Theory of Speculation: The Origins of Modern Finance. Princeton: Princeton University Press.
Biau, G., Devroye, L., & Lugosi, G. (2008). Consistency of Random Forests and Other Averaging Classifiers. Journal of Machine Learning Research, 9, 2015-2033.
Black, F., & Scholes, M. (1973). The Pricing of Options and Corporate Liabilities, Journal of Political Economy, 81 (3), 637-654.
Breeden, D. T., & Litzenberger, R. H. (1978). Prices of State-Contingent Claims Implicit in Option Prices. Journal of Business, 51(4), 621-651.
Breiman, L. (2001). Random Forests. Machine Learning, 45(1), 5-32.
Cox, D. R. (1972). Regression Models and Life-Tables. Journal of the Royal Statistical Society, Series B, 34 (2): 187–220.
Diebold, F. X., Tay, A. S., & Wallis, K. F. (1999). Evaluating Density Forecasts of Inflation: The Survey of Professional Forecasters. In R.F. Engle and H. White (eds.) Cointegration, Causality and Forecasting: Festschrift in Honour of Clive W. Granger. New York: Oxford University Press, 76-90.
Engle, R. F. (1982). Autoregressive Conditional Heteroscedasticity with Estimates of the Variance of United Kingdom Inflation. Econometrica, 50, 987-1007.
Fama, E. F. (1965). The Behavior of Stock-Market Prices. Journal of Business, 38(1), 34-105.
Gisiger, N. Risk-Neutral Probabilities Explained (October 2010). Available at SSRN: https://ssrn.com/abstract=1395390.
Granger, C. W. J., & Newbold, P. (1974). Spurious Regressions in Econometrics. Journal of Econometrics, 2(2), 111-120.
Hadar, J., & Russell, W. R. (1969). Rules for Ordering Uncertain Prospects. American Economic Review, 59(1), 25–34.
Hamilton, J. (1994). Time Series Analysis. Princeton: Princeton University Press.
Han, A., Hong, Y., Wang, S., & Yun, X. (2016). A Vector Autoregressive Moving Average Model for Interval-Valued Time Series Data. Essays in Honor of Aman Ullah, Advances in Econometrics, 36, 417-460.
Han, A., Hong, Y., & Wang, S. (2018). Autoregressive Conditional Interval Models for Time Series Data. Working Paper, Department of Economics and Department of Statistics and Data Science, Cornell University.
Hanoch, G., & Levy, H. (1969). The Efficiency Analysis of Choices Involving Risk. Review of Economic Studies, 36(3), 335–346.
Hong, Y., Liu, Y., & Wang, S. (2009). Granger Causality in Risk and Detection of Extreme Risk Spillover between Financial Markets. Journal of Econometrics, 150(2), 271–287.
Hong, Y. (2020). Modern Time Series Analysis: Theory and Applications, Manuscript, Department of Economics and Department of Statistics and Data Science, Cornell University.
Hull, J. C. (2017). Options Futures and Other Derivatives (10th ed.). London: Pearson.
Jorion, P. (2000). Value at Risk (3rd ed.). New York: McGraw-Hill.
Kahneman, D., & Tversky, A. (1979). Prospect Theory: An Analysis of Decision under Risk. Econometrica, 47, 263-291.
Krugman, P. (1991). Geography and Trade. Cambridge, MA: MIT Press.
Li, S., Ogura, Y., & Kreinovich, V. (2002). Limit Theorems and Applications of Set-Valued and Fuzzy Set-Valued Random Variables. Dordrecht: Kluwer Academic Publishers.
Lintner, J. (1965). The Valuation of Risk Assets and the Selection of Risky Investments in Stock Portfolios and Capital Budgets. Review of Economics and Statistics, 47(1), 13-37.
Malkiel, B. G. (1973). A Random Walk down Wall Street. New York: W. W. Norton & Company.
Markowitz, H. M. (1952). Portfolio Selection. Journal of Finance, 7(1), 77-91.
Markowitz, H. M. (1991). Foundations of Portfolio Theory. Journal of Finance, 46(2), 469-477.
Morgan, J. P. (1996). RiskMetrics – Technical Document (4th ed.). New York: Morgan Guaranty Trust Company.
Morini, M. (2011). Understanding and Managing Model Risk: A Practical Guide for Quants, Traders and Validators. Hoboken: John Wiley & Sons.
Mossin, J. (1966). Equilibrium in a Capital Asset Market. Econometrica, 34(4), 768-783.
Muth, J. F. (1961). Rational Expectations and the Theory of Price Movements. Econometrica, 29(3), 315-335.
Pearl, J. (2009). Causality: Models, Reasoning, and Inference (2nd ed.). New York: Cambridge University Press.
Rothschild, M., & Stiglitz, J. E. (1970). Increasing Risk I: A Definition. Journal of Economic Theory, 2(3), 225–43.
Scornet, E., Biau, G., & Vert, J. P. (2015). Consistency of Random Forests. Annals of Statistics, 43(4), 1716-1741.
Sharpe, W. F. (1964). Capital Asset Prices: A Theory of Market Equilibrium under Conditions of Risk. Journal of Finance, 19(3), 425-442.
Shobha, G., & Rangaswamy, S. (2018). Machine Learning. In V. N. Gudivada & C. R. Rao (eds.) Handbook of Statistics, 38, 197-228.
Sun, Y., Han, A., Hong, Y., & Wang, S. (2018). Threshold Autoregressive Models for Interval-Valued Time Series Data. Journal of Econometrics, 206(2), 414-446.
Varian, H. R. (2016). Causal Inference in Economics and Marketing. Proceedings of National Academy of Sciences, 113(27), 7310-7315.
Wasserstein, R. L., & Lazar, N. A. (2016). The ASA statement on p-Values: Context, Process, and Purpose. American Statistician, 70(2), 129-133.
Whang, Y. J. (2019). Econometric Analysis of Stochastic Dominance: Concepts, Methods, Tools, and Applications. Cambridge: Cambridge University Press.
White, H. (1992). Artificial Neural Networks: Approximation and Learning Theory. Hoboken: Blackwell Publishers, Inc.
洪永淼. (2017). 概率论与统计学. 北京: 中国统计出版社.
孙玉莹, 洪永淼, 汪寿阳. (2020). 区间计量经济学的若干新近发展及展望, 工作论文.
托马斯·皮凯蒂. (2014). 21世纪资本论. 巴曙松译, 北京: 中信出版社.
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

本版积分规则

Archiver|手机版|小黑屋|数学中国 ( 京ICP备05040119号 )

GMT+8, 2025-5-3 13:19 , Processed in 0.075991 second(s), 14 queries .

Powered by Discuz! X3.4

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表