Q2 生存分析报告 — IBM Telco Customer Churn 数据集
基于 Databricks Industry Solutions Survival Analysis for Churn and Lifetime Value 教程
分析环境:Spark 4.1.1, Python 3.12.3, lifelines 0.30.3
| 指标 | 值 |
|---|---|
| 总行数 | 7043 |
| 总列数 | 21 |
仅保留以下用户群体(与教程一致):
| 指标 | 值 |
|---|---|
| 总行数 | 3351 |
| 流失客户(churn=1) | 1556(46.4%) |
| 留存客户(churn=0) | 1795(53.6%) |
| 变量 | 均值 | 标准差 | 最小值 | 中位数 | 最大值 |
|---|---|---|---|---|---|
| SeniorCitizen(老年人比例) | 0.237 | 0.425 | 0 | 0 | 1 |
| tenure(在网时长,月) | 19.43 | 18.17 | 1 | 13 | 72 |
| MonthlyCharges(月费,$) | 73.59 | 21.34 | 23.45 | 75.90 | 117.45 |
| TotalCharges(总消费,$) | 1553.77 | 1659.08 | 23.45 | 931.55 | 8061.50 |
| churn(流失率) | 0.464 | 0.499 | 0 | 0 | 1 |
| 指标 | 值 |
|---|---|
| 中位生存时间 | 34.0 个月 |
| 样本量 | 3351 |
| 事件数(流失) | 1556 |
解读:月付互联网用户的整体中位生存时间为 34 个月,即 50% 的客户在 34 个月内流失。
生存曲线差异:Male vs Female 曲线轻微分离,具体 p 值见图表区间。
老年组生存曲线明显较低,与非老年组存在显著差异。
有伴侣组生存率更高,表明伴侣可能是留存保护因素。
有家属组生存率更高,家庭责任感可能降低流失倾向。
DSL 用户生存率显著高于光纤用户,光纤用户流失风险更大。
有在线安全服务的用户生存率最高,无在线安全者流失迅速。
| 月龄 | 生存概率 |
|---|---|
| 0 | 1.0000 |
| 1 | 0.9916 |
| 2 | 0.9840 |
| 3 | 0.9739 |
| 4 | 0.9642 |
| 5 | 0.9579 |
| 6 | 0.9512 |
| 7 | 0.9414 |
| 8 | 0.9320 |
| 9 | 0.9258 |
| 项目 | 值 |
|---|---|
| 模型 | lifelines.CoxPHFitter |
| 持续时间列 | tenure(月) |
| 事件列 | churn(0/1) |
| 基线估计 | Breslow |
| 样本量 | 3351 |
| 事件数 | 1556 |
| 删失数 | 1795 |
| 偏对数似然 | -11315.95 |
| Concordance(C-index) | 0.64 |
| Partial AIC | 22639.90 |
| Log-likelihood ratio test | 337.77(4 df, p < 0.001) |
| 变量 | coef | exp(coef) 风险比 | se(coef) | 95% CI(coef) | p 值 |
|---|---|---|---|---|---|
| dependents_Yes | -0.33 | 0.72 | 0.07 | [-0.47, -0.19] | <0.005 |
| internetservice_DSL | -0.22 | 0.80 | 0.06 | [-0.33, -0.10] | <0.005 |
| onlinebackup_Yes | -0.78 | 0.46 | 0.06 | [-0.89, -0.66] | <0.005 |
| techsupport_Yes | -0.64 | 0.53 | 0.08 | [-0.79, -0.49] | <0.005 |
解读(风险比 < 1 表示保护因素,降低流失风险):
使用三种方法检验比例风险假设:
| 变量 | p 值 | 是否通过 |
|---|---|---|
| dependents_Yes | 0.3680 | ✅ 通过 |
| internetservice_DSL | <5e-05 | ❌ 违反 |
| onlinebackup_Yes | <5e-05 | ❌ 违反 |
| techsupport_Yes | 0.0002 | ❌ 违反 |
结果:4 个变量中有 3 个违反了比例风险假设。
对每个变量绘制 Schoenfeld 残差图,黑线偏离零线表示违反假设:
dependents_Yes:基本平行(p=0.3680)internetservice_DSL:明显偏离(p<0.001)onlinebackup_Yes:明显偏离(p<0.001)techsupport_Yes:明显偏离(p<0.001)如果比例风险假设满足,各组 log-log 曲线应平行:
onlinebackup:曲线存在明显交叉dependents:曲线在早期平行,后期偏离internetservice:DSL 和 Fiber optic 曲线显著偏离techsupport:曲线在早期交叉| 项目 | 值 |
|---|---|
| 模型 | lifelines.LogLogisticAFTFitter |
| 指定分布 | Log-Logistic |
| 样本量 | 3351 |
| 事件数 | 1556 |
| 对数似然 | -6838.36 |
| 中位生存时间 | 135.51 月 |
| 变量 | coef | exp(coef) 加速因子 | se(coef) | 95% CI(coef) | p 值 |
|---|---|---|---|---|---|
| partner_Yes | 0.68 | 1.97 | 0.07 | [0.55, 0.81] | <0.005 |
| multiplelines_Yes | 0.66 | 1.94 | 0.07 | [0.53, 0.80] | <0.005 |
| internetservice_DSL | 0.38 | 1.47 | 0.08 | [0.23, 0.53] | <0.005 |
| onlinesecurity_Yes | 0.86 | 2.37 | 0.09 | [0.69, 1.03] | <0.005 |
| onlinebackup_Yes | 0.81 | 2.25 | 0.07 | [0.68, 0.95] | <0.005 |
| deviceprotection_Yes | 0.48 | 1.62 | 0.07 | [0.35, 0.62] | <0.005 |
| techsupport_Yes | 0.82 | 2.26 | 0.09 | [0.65, 0.99] | <0.005 |
| paymentmethod_Bank transfer | 0.26 | 1.30 | 0.08 | [0.11, 0.42] | <0.005 |
| paymentmethod_Credit card | 0.31 | 1.37 | 0.08 | [0.16, 0.47] | <0.005 |
解读(加速因子 > 1 表示生存时间延长,即保护因素):
注意:AFT 中 exp(coef) > 1 表示生存时间延长(减速),即保护因素。这与 Cox PH 的方向解释不同。
各组曲线应平行:多数变量曲线不平行 → 比例优势假设被违反。
各组曲线应呈直线:曲线基本呈直线 → Log-Logistic 分布选择合理。
| 假设 | 检验结果 | 结论 |
|---|---|---|
| 比例优势 | 曲线不平行 | ❌ 违反 |
| Log-Logistic 分布合适 | 曲线基本呈直线 | ✅ 合适 |
| 指标 | 值 |
|---|---|
| 平均实际 CLV(tenure × 月费) | $1,554.77 |
| 平均预测 CLV(预测寿命 × 月费) | $2,516.34 |
| 高估比例 | 61.8% |
| 指标 | 值 |
|---|---|
| Concordance Index | 0.6409 |
| 平均调整后 CLV | $1,612.68 |
| 调整后误差 | 3.7% |
| 调整前误差 | 61.8% |
结论:直接用 Cox PH 预测寿命会严重高估 CLV(61.8%)。经 C-index 缩放后,误差降至 3.7%。
| 统计量 | 预测寿命(月) | 预测 CLV($) | 实际 CLV($) |
|---|---|---|---|
| 均值 | 34.24 | 2516.34 | 1554.77 |
| 标准差 | 10.15 | 1096.98 | 1657.80 |
| 最小值 | 23.46 | 660.20 | 23.45 |
| 25% | 23.46 | 1737.54 | 242.32 |
| 50% | 30.60 | 2196.16 | 943.50 |
| 75% | 41.86 | 3302.33 | 2323.78 |
| 最大值 | 58.92 | 6247.61 | 8128.80 |
参数:IRR = 10% 年化(月化 0.83%),月利润 = $30
| 月份 | 生存概率 | 月利润 | 期望月利润 | NPV | 累积 NPV |
|---|---|---|---|---|---|
| 1 | 0.948 | $30 | $28.44 | $28.20 | $28.20 |
| 6 | 0.872 | $30 | $26.15 | $24.88 | $158.29 |
| 12 | 0.814 | $30 | $24.41 | $22.10 | $297.52 |
| 24 | 0.723 | $30 | $21.70 | $17.78 | $533.27 |
| 方法 | 类型 | 用途 | 本数据集适用性 | 关键指标 |
|---|---|---|---|---|
| Kaplan-Meier | 非参数 | 单变量探索 | ✅ 适合初步探索 | 中位生存时间 = 34 月 |
| Cox PH | 半参数 | 多变量风险比分析 | ⚠️ 比例风险假设违反 | C-index = 0.64 |
| AFT(Log-Logistic) | 全参数 | 多变量加速因子分析 | ❌ 比例优势假设违反 | 中位生存时间 = 135.5 月 |
© 2026 oneweblog.cn | 生存分析报告