Summary 序 TKE 奇淫技巧 利用 NAT 网关实现无公网 IP 机器访问外网 在 TKE 中安装 metrics-server RBAC细化集群的操作权限 自定义节点的操作系统 TKE 使用相关 挂载的nfs为何是10G 为什么 controller-manager 和 scheduler 状态显示 Unhealthy k8s问题排查 Pod 状态一直 Terminating Pod 状态一直 ContainerCreating Pod 状态一直 Pending 节点 NotReady Service 无法解析 LB 显示异常 集群内无法访问外网 无法访问集群外的服务 Pod 无法被 exec 和 logs Job 无法被删除 服务不能被访问 伸缩组无法扩容 PVC 显示 Pending CBS 云盘挂载失败 apiserver 响应慢 ISTIO问题排查 网格内部无法访问外部 躺过的坑 K8S 对 IPVS 支持的 BUG 开启tcp_tw_recycle内核参数在NAT环境会丢包 部分 DNS 查询延迟的原因与解决方案 Rancher 清除 Node 导致集群异常 k8s问题定位技巧 分析 ExitCode 定位程序退出原因 容器内抓包定位网络问题 分析docker磁盘占用 分析网络划分计算最大节点、service 与 pod数量 k8s最佳实践 优雅热更新 处理容器数据磁盘被写满 kubectl 高效技巧 泛域名动态 Service 转发解决方案 处理内存碎片化 解决长连接服务扩容失效 合理设置 request 和 limit 使用自建 DNS 解析内部域名