陈老师您好!
我现在计算出了某个省渗漏聚集区和非聚集区。通过正态分布分析发现数据不符合正态分布,转换后也不行,于是决定采用二分类Logistic回归进行分析。
因变量上将聚集区块表示为0,非聚集区块表示为1。选取多个社会经济指标,想分析社会经济指标是否对渗漏聚集和非聚集有影响,及其影响程度有多少。
根据您网站上的帖子,具体分析过程如下:
1. 自变量正态K-S检验。发现所有自变量都不是正态分布的
2. 自变量非参数检验,采用Kruskal-Wallis H检验,剔除P>0.05的指标
3. 相关性检验。由于自变量都不是正态的,采用spearman相关性分析,两两对比。对相关性>0.75的指标,保留其中一个
4. 二项Logistic回归。选择向后Wald,剔除结果中P>0.05的指标
5. 再次做二项Logistic回归。此处有两个问题:
A. Hosmer-Lemeshow 检验 不通过。
霍斯默-莱梅肖检验
步骤 卡方 自由度 显著性
1 59.292 8 .000
4 67.900 8 .000
这是说明模型拟合效果很不好吗?我该怎么办呢?
B. 拟合效果如何评价?
块0的结果:
分类表a,b
实测 预测
Group 正确百分比
0 1
步骤 0 Group 0 0 4857 .0
1 0 5155 100.0
总体百分比 51.5
块1的结果:
分类表a
实测 预测
Group 正确百分比
0 1
步骤 1 Group 0 2259 2598 46.5
1 617 4538 88.0
总体百分比 67.9
步骤 4 Group 0 2284 2573 47.0
1 650 4505 87.4
总体百分比 67.8
a 分界值为 .500
但块1的Hosmer-Lemeshow 显著性为0.
请问如何评价二项Logistic拟合结果好不好呢?对于我这种情况,我该如何改进呢?
|
|