b.中国人民解放军第三军医大学 学员旅十一营, 重庆 400038
b. Battalion 11, College of Medicine, Third Military Medical University, Chongqing 400038, P. R. China
医疗质量的提升和医疗改革的顺利进行其前提是足够的医疗费用,医疗费用预算的关键在于疾病费用预测标准制定得是否科学、合理[1, 2]。因此,能够根据现有搜集得到的医疗费用数据,借助合理有效的数学模型预测并制定医疗费用的预算方案是促进医改顺利进行的关键。根据前期调研结果,社会物价的波动、医疗成本的改变均能引发医疗费用的改变。准确的疾病费用预测对医疗政策的制定能提供有益的参考。尽管有不少医疗费用的相关研究[3, 4, 5],但仍存在定性研究多,缺乏用数学方法进行精确研究等问题,笔者拟通过运用BP神经网络模型、广义回归神经网络模型、灰色GM(1,1)模型以及非线性回归模型对医疗费用进行预测,并对4种模型的预测效果进行比较分析,以期获得预测精度高、方法科学的数学模型,方便后续研究的顺利进行。
1 资料与方法 1.1 临床资料本研究选用的是重庆市某三级甲等医院在2012年1月至2015年8月之间5类疾病每月治疗病例数和人均治疗费用的统计数据,其中5类疾病包括糖尿病9 208例、甲状腺功能亢进1 888例、顺产2 997例、肠息肉1 911例、脑梗死6 731例(见表 1)。所选出每月人均疾病治疗费用数据样本共230个,构成矩阵 A =(aij)44×5,数据矩阵的维度为44×5,其中以月份为时间序列,共44个月的人均疾病费用。
![]() |
表 1 2012年1月至2015年8月5类疾病每月治疗病例数和人均治疗费用(万元) Table 1 The number of patients and mean cost from Jan.2012 to Aug.2015 |
根据大量学者研究[6, 7, 8, 9, 10]提示,BP神经网络模型、广义回归神经网络、灰色GM(1,1)预测模型以及非线性回归模型是目前应用最为广泛的预测模型,其应用范围涉及天文预测、人口预测、财政预测等方面,但其在临床疾病费用预测方面的应用相对较少。笔者选择以上4种模型对5种临床常见疾病的治疗费用进行预测,并且为判断预测模型的准确程度,本研究选用可决系数R2[11]作为统计学拟合程度评价指标,其统计学意义在于反映预测模型预测结果与样本观测值之间的偏离程度。R2越大,则预测偏离程度越小,反之,预测偏离程度越大。因此,研究以2012年1月至2014年12月的疾病治疗费用为基础,预测2015年1月至8 月内的疾病治疗费用,并根据预测模型的可决系数R2和2015年1月至8月的真实值和预测值之间的相对误差E判断预测模型的准确程度。
1.2.1 神经网络模型神经网络模型是按照生物神经元的结构和工作原理构建一个人工神经网络,其中人工神经元作为一种简单的处理器,可以将输入的信号进行加权求和。
本研究采用了两种神经网络模型:BP神经网络模型和广义回归神经网络模型(generalized regression neural network,GRNN)。两种模型的结构大致相同,通常由输入层、输出层及若干隐含层构成,每层有若干个神经元,上层神经元与下层神经元通过权重进行连接,层与层之间都是所有神经元互联构成复杂的连接网络(图 1)。BP神经网络是一种多层神经网络,采用误差反向传播的学习算法进行权值和阈值调整,而广义回归神经网络建立在非参数回归分析的基础上,以样本数据为后验条件进行参数估计,根据最大概率原则进行网络输出[6]。关于两种神经网络模型的数学原理,详见参考文献[7, 8, 9]。
![]() |
图 1 神经网络模型模式图 Fig. 1 Neural network model |
灰色GM(1,1)模型是灰色系统理论中应用最广泛的灰色动态预测模型,也称单序列一阶线性动态预测模型。该模型是将时间序列 X(0)={X(0)(1),X(0)(2),…,X(0)(n)}累加生成新序列X(1)(t),t为时间序列,如t=1,即表示2012年1月;t=12,即表示2012年12月。X(1)(t)且满足微分方程:
dX(1)dt+αX(1)=μ, | (1) |
X(1)(t+1)=(X(0)(1)−μα)e−αt+μα, | (2) |
最后,将累加的预测值还原得到目标预测值X(0)(t+1)。详细原理参考文献[10]。
1.2.3 非线性回归模型根据选用数据的分布情况,本研究采用二次函数进行线性拟合,即根据n组原始数据点(x,y)的分布,寻找函数ˆy=Ax2+bx+c使得n∑i=1(ˆy−y)2最小,则在函数ˆy为该组数据拟合函数,则可以根据拟合函数ˆy对随后的疾病费用进行预测[11]。
2 结果与分析 2.1 预测模型本研究使用2012年1月至2014年12月的疾病人月均治疗费用数据,分别采用BP神经网络模型、广义回归神经网络模型、灰色GM(1,1)模型以及非线性回归模型,构建了5种疾病的月人均治疗费用模型。其中,为确保BP神经网络模型输出结果的准确性,隐含层神经元间的传递函数选用log-sigmoid型函数logsig,输出层神经元的传递函数选用纯线性函数purelin。广义回归神经网络模型的基函数选用的是格林(Green)函数[13, 14, 15]。灰色GM(1,1)模型中累加函数方程以及非线性回归模型[16, 17]的模型方程如下所示。
1) 糖尿病预测模型。
灰色GM(1,1)模型:X1(1)(t+1)=[X1(1)(t+1)+725.026]e0.002t-725.026;
非线性回归模型:y1=-7.558×10-4t2+0.033t+1.367。
2) 甲状腺功能亢进预测模型。
灰色GM(1,1)模型:X2(1)(t+1)=[X2(1)(t+1)+174.480]e0.005t-174.480;
非线性回归模型:y2=-6.136×10-4t2+0.028t+0.652。
3) 顺产预测模型。
灰色GM(1,1)模型:X3(1)(t+1)=[X3(1)(t+1)+52.406]e0.008t-52.406;
非线性回归模型:y3=-1.775×10-4t2+0.010t+0.358。
4) 肠息肉预测模型。
灰色GM(1,1)模型:X4(1)(t+1)=[X4(1)(t+1)+137.045]e0.006t-137.045;
非线性回归模型:y4=-1.094×10-4t2+0.010t+0.821。
5) 脑梗死预测模型。
灰色GM(1,1)模型:X5(1)(t+1)=[X5(1)(t+1)+175.625]e0.015t-175.625;
非线性回归模型:y5=-1.403×10-3t2+0.108t+2.127。
4种预测模型在5种疾病治疗费用预测中的可决系数R2见表 2,可见5种疾病广义回归网络模型的可决系数R2 均高于其他模型。
![]() |
表 2 5种疾病四种预测模型的可决系数R2 Table 2 Coefficients of determination of four models for five diseases |
分别对5种疾病2015年1月至8月的月人均住院费用进行预测,并与实际值进行比较,表 2至表 6给出2015年1月至8月的预测误差E。对糖尿病,广义回归神经网络模型和灰色GM(1,1)模型的相对误差较小;对甲状腺机能亢进、顺产,广义回归神经网络模型和非线性回归模型的相对误差较小;对肠息肉,广义回归神经网络模型和灰色GM(1,1)模型、非线性回归模型的相对误差较小;对甲状腺机能亢进,非线性回归模型和广义回归神经网络模型的相对误差较小;对脑梗死,广义回归神经网络模型和BP神经网络模型的相对误差较小。广义回归神经网络模型在疾病费用的预测方面效果较好。
![]() |
表 3 4种模型关于糖尿病治疗费用预测结果的验证(万元) Table 3 The results of four models to predict the cost of diabetes |
![]() |
表 4 4种模型关于甲状腺机能亢进治疗费用预测结果的验证(万元) Table 4 The result of four models to predict the cost of hyperthyroidism |
![]() |
表 5 4种模型关于顺产治疗费用预测结果的验证(万元) Table 5 The result of four models to predict the cost of eutocia |
![]() |
表 6 4种模型关于肠息肉治疗费用预测结果的验证(万元) Table 6 The result of four models to predict the cost of intestinal polyp |
根据表 2~7中的数据,可以得出以下结论:①根据可决系数R2的大小关系,4种模型拟合程度排序分别为:广义回归神经网络模型(Rmin2=0.565,Rmax2=0.901)、BP神经网络模型(Rmin2=0.278,Rmax2=0.826)、非线性回归模型(Rmin2=0.097,Rmax2=0.747)、灰色GM(1,1)模型(Rmin2=0.048,Rmax2=0.600)。②根据预测相对误差E的大小关系,4种模型预测结果可靠性排序分别为:广义回归神经网络模型(Emin=3.507%,Emax=13.940%)、非线性回归模型(Emin=3.642%,Emax=17.204%)、BP神经网络模型(Emin=9.845%,Emax=15.450%)、灰色GM(1,1)模型(Emin=5.897%,Emax=30.518%)。
![]() |
表 7 4种模型关于脑梗死治疗费用预测结果的验证(万元) Table 7 The result of four models to predict the cost of cerebral infarction |
1) 广义回归神经网络模型预测效果更接近临床数据,并且预测结果较其他模型更加稳定,是4种模型中最适宜应用于临床疾病费用预测工作的数学模型。
2) BP神经网络模型的预测效果较广义回归神经网络模型略差一点,主要原因可能在于其缺乏选择学习速率的方式以及确定隐含层神经元数目的有效方法,这些不足在文献中都有较为详尽的记录。
3) 非线性回归模型的预测效果波动较大,主要原因在于该模型对于数据的要求较高,在数据波动较大,特别是在临床病情复杂,单一病种相对少见的情况下,应用受到较大限制。
4) 灰色GM(1,1)模型的预测效果是4种模型中最差的,主要原因在于灰色GM(1,1)模型是基于第一个初始值X(0)(1),并采用外推法进行拟合预测的过程,按照最小二乘法的原理也必将经过第一个数据点,因此,初始点的选取会显著影响预测的效果和精度。
5) 对于文中提到的以时间序列为依据的预测模型,广义回归神经网络模型可以进行的自适应、自学习以及容错功能,克服了其他3种模型的缺点,可以不受数据模型参数、结构以及动态特性的影响,对于数据的要求也不高,是可以应用于临床疾病治疗费用预测的重要模型。
[1] | Tacettin Ornek. Clinical factors affecting the direct cost of patients hospitalized with acute exacerbation of chronic obstructive pulmonary disease[J]. International Journal of Medical Sciences,2012,9(4):285-290.(![]() |
[2] | Joel Segal. Cost of illness studies[M]. RTI International Center of Excellence in Health Promotion Economics,2006:2.(![]() |
[3] | Kappelman M D, Rifas-Shiman S L, Porter C Q, et al. Direct Health Care Costs of Crohn's Disease and Ulcerative Colitis in US Children and Adults[J]. Gastroenterology,2008,135:1907-1913.(![]() |
[4] | Usa C, Petcharat P, Nathorn C, et al. Factors affecting health-care costs and hospitalizations among diabetic patients in Thai public hospitals.[J]. Value in Health,2008,11(s1):69-74.,(![]() |
[5] | Mehta S, Moore R D, Graham N M. Potential factors affecting adherence with HIV therapy[J]. Aids,1997,11(14):1665-1670.(![]() |
[6] | 陈明.MATLAB神经网络原理与实例精解[M].北京:清华大学出版社,2013. CHEN Ming. MATLAB neural network principle and example[M]. Beijing:Tsinghua university press,2013.(in Chinese)(![]() |
[7] | Asoodeh M, Shadizadeh S R, Zargar G. The estimation of stoneley wave velocity from conventional well log data:using an integration of artificial neural networks[J]. Energy Sources Part A:Recovery Utilization and Environmental Effects,2015,37(3):309-317.(![]() |
[8] | Zhang J, Tan Z, Li C. A novel hybrid forecasting method using GRNN combined with wavelet transform and a GARCH model[J]. Energy Sources Part B:Economics Planning and Policy,2015,10(4):418-426.(![]() |
[9] | Liu X Y, Peng H Q, Bai Y, et al. Tourism flows prediction based on an improved grey GM(1,1) model[J]. Procedia-Social and Behavioral Sciences,2014,138:767-775.(![]() |
[10] | Khataee A, Vahid B, Behjati B, et al. Kinetic modeling of a triarylmethane dye decolorizeation by photoelectron-Fenton processs in a recirculateing system; Nonlinear regression analysis[J]. Chemical Engineering Research and Design,2013,92(2):362-367.(![]() |
[11] | 张良均,曹晶,蒋世忠.神经网络实用教程[M].北京:机械工业出版社,2009:22-31. ZHANG Liangjun, CAO Jin, JIANG Shizhong. Neural network practical tutorial[M]. Beijing:China Machine Press,2009:22-31.(in Chinese)(![]() |
[12] | 颜虹.医学统计学[M].2版.北京:人民卫生出版社,2010:215. YAN Hong. Medlical statistics[M]. 2th ed. Beijing:People's Medical Publishing House, 2010:215. (in Chinese) |
[13] | 张德丰.MATLAB神经网络编程[M].北京:化学工业出版社,2011. ZHANG Defeng. MATLAB neural network programming[M]. Beijing:Chemical Industry Press,2011.(in Chinese)(![]() |
[14] | 陈芳,楼文高.基于广义回归神经网络的蔬菜市场日价格预测[J].浙江农业学报,2015,27(7):1253-1258. CHEN Fang, LOU Wengao. Vegetable market day price forecasting based on generalized regression neural network[J]. Acta Agriculturae Zhejiangensis,2015,27(7):1253-1258.(in Chinese)(![]() |
[15] | Liu B, Zhao L, Zhai Z J, et al. Optimum model of GM(1,1) and its suitable range[J]. Journal of Nanjing University of Aeronautics and Astronautics,2003,35(4):451-454.(![]() |
[16] | 陈永胜.基于MATLAB和SPSS的非线性回归分析[J].牡丹江大学学报,2009,18(5):101-103. CHEN Yongsheng. Nonlinear regression analysis based on MATLAB and SPSS[J]. Journal of Mudanjiang University,2009,18(5):101-104.(in Chinese)(![]() |
[17] | 杨华龙,刘金霞,郑斌.灰色预测GM(1,1)模型的改进及应用[J].数学的实践与认识,2011,41(23):39-46. YANG Hualong, LIU Jinxia, ZHENG Bin. Improvement and application of grey prediction GM (1,1) model[J]. Mathematics in Practice and Theory,2011,41(23):39-46.(in Chinese)(![]() |