7月2号10点后,刚好某个负责的服务发生大量的redis连接超时的异常(redis.clients.jedis.exceptions.JedisConnectionException),由于本身的数据库查询缓存在redis中2分钟,并且未做降级措施,而且本身不能做限流处理,而且随着午高峰的时间流量在飙升,并且从10点开始的2000的QPS,在11点达到高峰的13000QPS. 好在只是redis超时导致的某个查询的失效,并不会导致整个主链路的流程不可用,所以接下来是怎么快速发现和解决问题. 1.