生存分析在电信客户流失中的应用

基于 IBM Telco Customer Churn 数据集 · 2026-04-28 · oneweblog.cn

Q2 生存分析报告 — IBM Telco Customer Churn 数据集

基于 Databricks Industry Solutions Survival Analysis for Churn and Lifetime Value 教程
分析环境:Spark 4.1.1, Python 3.12.3, lifelines 0.30.3

1. 数据集概况

1.1 数据来源

1.2 原始数据

指标
总行数7043
总列数21

1.3 数据筛选

仅保留以下用户群体(与教程一致):

1.4 筛选后数据(Silver 层)

指标
总行数3351
流失客户(churn=1)1556(46.4%)
留存客户(churn=0)1795(53.6%)

1.5 描述性统计

变量均值标准差最小值中位数最大值
SeniorCitizen(老年人比例)0.2370.425001
tenure(在网时长,月)19.4318.1711372
MonthlyCharges(月费,$)73.5921.3423.4575.90117.45
TotalCharges(总消费,$)1553.771659.0823.45931.558061.50
churn(流失率)0.4640.499001

2. Kaplan-Meier 生存分析

plot_0 plot_1 plot_2 plot_3 plot_4 plot_5 plot_6 plot_7
图:Kaplan-Meier 总体及分组生存曲线

2.1 总体生存曲线

指标
中位生存时间34.0 个月
样本量3351
事件数(流失)1556

解读:月付互联网用户的整体中位生存时间为 34 个月,即 50% 的客户在 34 个月内流失。

2.2 分组 Kaplan-Meier 曲线与 Log-Rank 检验

2.2.1 Gender(性别)

生存曲线差异:Male vs Female 曲线轻微分离,具体 p 值见图表区间。

2.2.2 Senior Citizen(老年人)

老年组生存曲线明显较低,与非老年组存在显著差异。

2.2.3 Partner(伴侣)

有伴侣组生存率更高,表明伴侣可能是留存保护因素。

2.2.4 Dependents(家属)

有家属组生存率更高,家庭责任感可能降低流失倾向。

2.2.5 Internet Service(互联网服务)

DSL 用户生存率显著高于光纤用户,光纤用户流失风险更大。

2.2.6 Online Security(在线安全)

有在线安全服务的用户生存率最高,无在线安全者流失迅速。

2.3 生存概率示例(InternetService = DSL)

月龄生存概率
01.0000
10.9916
20.9840
30.9739
40.9642
50.9579
60.9512
70.9414
80.9320
90.9258

2.4 Kaplan-Meier 小结


3. Cox 比例风险模型

plot_8 plot_9 plot_10 plot_11 plot_12 plot_13 plot_14 plot_15 plot_16
图:Cox PH 模型诊断图(残差、比例风险检验等)

3.1 模型设置

项目
模型lifelines.CoxPHFitter
持续时间列tenure(月)
事件列churn(0/1)
基线估计Breslow
样本量3351
事件数1556
删失数1795
偏对数似然-11315.95
Concordance(C-index)0.64
Partial AIC22639.90
Log-likelihood ratio test337.77(4 df, p < 0.001)

3.2 模型系数

变量coefexp(coef) 风险比se(coef)95% CI(coef)p 值
dependents_Yes-0.330.720.07[-0.47, -0.19]<0.005
internetservice_DSL-0.220.800.06[-0.33, -0.10]<0.005
onlinebackup_Yes-0.780.460.06[-0.89, -0.66]<0.005
techsupport_Yes-0.640.530.08[-0.79, -0.49]<0.005

解读(风险比 < 1 表示保护因素,降低流失风险):

3.3 比例风险假设检验

使用三种方法检验比例风险假设:

方法 1:统计检验

变量p 值是否通过
dependents_Yes0.3680✅ 通过
internetservice_DSL<5e-05违反
onlinebackup_Yes<5e-05违反
techsupport_Yes0.0002违反

结果:4 个变量中有 3 个违反了比例风险假设。

方法 2:Schoenfeld 残差图

对每个变量绘制 Schoenfeld 残差图,黑线偏离零线表示违反假设:

方法 3:Log-Log Kaplan-Meier 图

如果比例风险假设满足,各组 log-log 曲线应平行

3.4 Cox PH 小结


4. 加速失效时间模型(AFT)

4.1 模型设置

项目
模型lifelines.LogLogisticAFTFitter
指定分布Log-Logistic
样本量3351
事件数1556
对数似然-6838.36
中位生存时间135.51 月

4.2 模型系数

变量coefexp(coef) 加速因子se(coef)95% CI(coef)p 值
partner_Yes0.681.970.07[0.55, 0.81]<0.005
multiplelines_Yes0.661.940.07[0.53, 0.80]<0.005
internetservice_DSL0.381.470.08[0.23, 0.53]<0.005
onlinesecurity_Yes0.862.370.09[0.69, 1.03]<0.005
onlinebackup_Yes0.812.250.07[0.68, 0.95]<0.005
deviceprotection_Yes0.481.620.07[0.35, 0.62]<0.005
techsupport_Yes0.822.260.09[0.65, 0.99]<0.005
paymentmethod_Bank transfer0.261.300.08[0.11, 0.42]<0.005
paymentmethod_Credit card0.311.370.08[0.16, 0.47]<0.005

解读(加速因子 > 1 表示生存时间延长,即保护因素):

注意:AFT 中 exp(coef) > 1 表示生存时间延长(减速),即保护因素。这与 Cox PH 的方向解释不同。

4.3 假设检验(Log-Odds 图)

比例优势假设(Proportional Odds)

各组曲线应平行:多数变量曲线不平行 → 比例优势假设被违反。

分布合适性

各组曲线应呈直线:曲线基本呈直线 → Log-Logistic 分布选择合理

4.4 AFT 小结

假设检验结果结论
比例优势曲线不平行❌ 违反
Log-Logistic 分布合适曲线基本呈直线✅ 合适

5. 客户终身价值(CLV)

5.1 CLV 计算

指标
平均实际 CLV(tenure × 月费)$1,554.77
平均预测 CLV(预测寿命 × 月费)$2,516.34
高估比例61.8%

5.2 C-index 调整后的 CLV

指标
Concordance Index0.6409
平均调整后 CLV$1,612.68
调整后误差3.7%
调整前误差61.8%

结论:直接用 Cox PH 预测寿命会严重高估 CLV(61.8%)。经 C-index 缩放后,误差降至 3.7%。

5.3 CLV 预测寿命描述统计

统计量预测寿命(月)预测 CLV($)实际 CLV($)
均值34.242516.341554.77
标准差10.151096.981657.80
最小值23.46660.2023.45
25%23.461737.54242.32
50%30.602196.16943.50
75%41.863302.332323.78
最大值58.926247.618128.80

5.4 样本客户 NPV 分析

参数:IRR = 10% 年化(月化 0.83%),月利润 = $30

月份生存概率月利润期望月利润NPV累积 NPV
10.948$30$28.44$28.20$28.20
60.872$30$26.15$24.88$158.29
120.814$30$24.41$22.10$297.52
240.723$30$21.70$17.78$533.27

6. 综合结论

6.1 三种方法对比

方法类型用途本数据集适用性关键指标
Kaplan-Meier非参数单变量探索✅ 适合初步探索中位生存时间 = 34 月
Cox PH半参数多变量风险比分析⚠️ 比例风险假设违反C-index = 0.64
AFT(Log-Logistic)全参数多变量加速因子分析❌ 比例优势假设违反中位生存时间 = 135.5 月

6.2 关键业务发现

6.3 实践建议


© 2026 oneweblog.cn | 生存分析报告