17.1.3.2 故障检测

组复制包括故障检测机制,该机制能够找到并报告哪些服务器处于静默状态,并因此认为已死机。总体而言,故障检测器是一种分布式服务,可提供有关哪些服务器可能死机(怀疑)的信息。服务器静音时会触发怀疑。如果服务器 A 在给定时间段内未收到来自服务器 B 的消息,则会发生超时并引起怀疑。后来,如果小组同意这种怀疑可能是真的,那么该小组将确定给定的服务器确实发生了故障。这意味着组中的其余成员将做出协调决策以排除给定成员。

服务器静音时会触发怀疑。如果服务器 A 在给定时间段内未收到来自服务器 B 的消息,则会发生超时并引起怀疑。

如果服务器与组中的其他服务器隔离,则它怀疑所有其他服务器均已失败。无法与该组达成协议(因为它无法达到法定人数),因此对其怀疑不会产生任何后果。当服务器通过这种方式与组隔离时,它将无法执行任何本地事务。