协议生效时间:2021 年 01 月 28 日
物联网平台服务等级协议
本服务等级协议(Service Level Agreement,简称 “SLA”)规定向客户提供的物联网平台(简称“物联网平台”)的服务可用性等级指标。
1、定义
服务周期: 一个服务周期为一个季度,如不满一个季度不计算为一个服务周期。
服务周期总分钟数: 按照服务周期内的总天数 ∗ 24(小时)∗ 60(分钟)计算。
服务不可用分钟数: 当某一分钟内,客户所有试图与平台建立连接的连续尝试均失败,则视为该分钟内服务不可用。在一个服务周期内接入平台不可用分钟数之和即该服务不可用分钟数。
有效消息:物联网平台从设备端或服务端成功接收到的所有请求。不包括由于用户操作不当、产品限制、设备不在线以及网络等原因导致的消息接受不成功的情形。例如:
由于运营商网络故障,平台没有成功发送给设备、设备没有成功连接以及设备没有成功上报到平台的请求;
由于本地网络故障没有成功发送给设备的消息;
失败消息:因物联网平台系统故障导致的未能成功接收以及流转的有效请求。失败消息举例如下:
设备连接正常,但是由于系统异常导致设备上行失败的消息;
设备发送消息成功到平台,但是由于系统异常导致服务端不能成功收到;
用户调用接口发送指令给在线设备,但是由于系统异常导致不能发送给设备的消息。
2、服务分级
根据服务量和业务需求将服务保障分为3个级别:一级、二级、三级;
说明:
新上线的服务默认三级保障,根据业务需求和服务量进行升级;
没有标出的服务均为三级服务;
整体服务分级
等级 | 服务 | 承诺范围 |
---|---|---|
一级 | 设备上云,标准功能和自定义功能属性、事件上报,云端指令下发(单次、批量),云端消息回调业务平台,设备管理开放接口 | SDK、OpenAPI |
二级 | 离线消息推送,OTA,设备分组,设备标签,远程配置,消息路由转发,设备M2M控制,网关子设备接入,设备基础数据开放接口 | SDK、OpenAPI |
三级 | 网络诊断,监控告警,应用管理,设备资源,平台产品化web相关功能 | SDK、OpenAPI |
3、服务可用性
3.1 服务标准
等级 | 可用性 |
---|---|
一级 | 不低于99.9% (8.76小时不可用/年) |
二级 | 不低于99.8% (17.52小时不可用/年) |
三级 | 不低于99.5%(43.8小时不可用/年) |
3.2 服务可用性计算方式
服务可用性=((有效消息-失败消息)/有效消息)×100%
排除项:
业务侧的使用错误导致的不可用时间,包括参数异常,授权配置错误,业务侧的后处理异常。
不可抗力或超出控制范围的因素导致的不可用时间,包括运营商和IDC故障。
客户的应用程序受到黑客攻击而引起的;
客户维护不当或保密不当致使数据、口令、密码等丢失或泄漏所引起的;
预先通知客户后进行系统维护所引起的不可用时间,包括割接、维修、升级和模拟故障演练;
维护保障团队正确执行业务侧授权的操作所引起的不可用时间,如按业务侧提交的上线单操作引起的故障;
业务侧流量突增,未向云端部备案,引起性能和授权不够导致的不可用的时间;
业务侧使用云端因内容违反国家法律法规被监管部门要求停机或被国家强制停机导致的不可用时间。
4、故障定级
故障定级说明:
根据故障的影响程度,将故障分4个级别:P1、P2、P3、P4严重性由高到低;
从两个视角衡量故障的影响程度:平台服务整体视角、单个业务视角;
4.1 故障定性说明
故障级别 | 故障定性说明 |
---|---|
P1(特别重大) | 当任意一级服务出现长时间部分不可用;大面积影响用户体验。 |
P2(重大) | 当任意一级服务出现短时间部分不可用 当任意二级服务出现长时间部分不可用 影响范围可控,如果持续故障,将大面积影响用户体验。 |
P3(一般) | 当任意二级服务出现短时间部分不可用 当任意三级服务出现短时间部分不可用 影响范围可控,轻微影响用户体验。 |
P4(轻微) | 服务短时间少部分不可用,在用户无感知的时间内已恢复 |
4.2 故障定量说明-平台维度
说明:时间单位:min(统计绝对时间)
4.2.1 一级服务
成功率 | 时长<=60 | 60<时长<=100 | 100<时长<=150 | 时长>150 |
---|---|---|---|---|
90%=<*<95% | 无 | 无 | P4 | P3 |
70%=<*<90% | 无 | P4 | P3 | P3 |
*<70% | P4 | P3 | P2 | P1 |
4.2.2 二级服务
成功率 | 时长<=80 | 80<时长<=120 | 120<时长<=150 | 时长>150 |
---|---|---|---|---|
80%=<*<90% | 无 | 无 | P4 | P3 |
60%=<*<80% | 无 | P4 | P3 | P2 |
*<60% | P4 | P3 | P3 | P2 |
4.2.3 三级服务
成功率 | 时长<=120 | 时长>120 |
---|---|---|
40%=<*<60% | 无 | P4 |
*<30% | P4 | P3 |
4.3 故障定量说明-业务维度
说明:
1、从业务和用户视角评估故障的影响;
2、建立投诉渠道,根据业务投诉数量分别计算各业务的故障等级(计算方式与平台一致,统计的数据范围仅限当前业务使用的当前服务)