← 返回首页
🛡️

故障转移设计

📂 architecture ⏱ 2 min 235 words

故障转移设计

健康检查机制

健康检查是故障转移的基础。系统需要定期检测各组件的健康状态,及时发现故障并触发转移。

// 多维度健康检查
@Component
public class HealthChecker {
    
    private final Map<String, HealthIndicator> indicators = new HashMap<>();
    
    @Autowired
    public HealthChecker() {
        indicators.put("database", new DatabaseHealthIndicator());
        indicators.put("redis", new RedisHealthIndicator());
        indicators.put("mq", new MessageQueueHealthIndicator());
    }
    
    public HealthStatus check() {
        Map<String, Boolean> results = new HashMap<>();
        for (Map.Entry<String, HealthIndicator> entry : indicators.entrySet()) {
            try {
                results.put(entry.getKey(), entry.getValue().isHealthy());
            } catch (Exception e) {
                results.put(entry.getKey(), false);
            }
        }
        
        boolean allHealthy = results.values().stream().allMatch(Boolean::booleanValue);
        return new HealthStatus(allHealthy, results);
    }
}

public interface HealthIndicator {
    boolean isHealthy();
}

@Component
public class DatabaseHealthIndicator implements HealthIndicator {
    private final JdbcTemplate jdbcTemplate;
    
    @Override
    public boolean isHealthy() {
        try {
            jdbcTemplate.execute("SELECT 1");
            return true;
        } catch (Exception e) {
            return false;
        }
    }
}

自动故障转移

自动故障转移需要在检测到故障后快速将流量切换到健康节点,同时保证数据一致性。

// 主动-被动故障转移模式
@Component
public class FailoverManager {
    
    private volatile Node activeNode;
    private volatile Node standbyNode;
    private final Lock lock = new ReentrantLock();
    
    public void onNodeFailure(Node failedNode) {
        lock.lock();
        try {
            if (failedNode.equals(activeNode)) {
                log.warn("主节点故障,触发故障转移");
                
                // 验证备用节点健康状态
                if (standbyNode.isHealthy()) {
                    // 切换主备角色
                    Node temp = activeNode;
                    activeNode = standbyNode;
                    standbyNode = temp;
                    
                    // 同步数据
                    syncData(temp, activeNode);
                    
                    // 更新路由表
                    updateRoutingTable();
                    
                    log.info("故障转移完成,新主节点: {}", activeNode.getId());
                } else {
                    log.error("主备节点均不可用,服务降级");
                    triggerDegradation();
                }
            }
        } finally {
            lock.unlock();
        }
    }
}

脑裂问题与处理

脑裂是指分布式系统中因网络分区导致多个节点同时认为自己是主节点的问题。常见解决方案包括:

  1. 多数派投票:节点需要获得多数票才能成为主节点
  2. Fencing Token:使用递增的令牌防止旧主节点干扰新主节点
  3. 共享存储:使用共享存储作为仲裁机制
// Fencing Token 实现
@Component
public class FencingService {
    private final AtomicLong currentToken = new AtomicLong(0);
    
    public long issueToken() {
        return currentToken.incrementAndGet();
    }
    
    public boolean validateToken(long token) {
        return token >= currentToken.get();
    }
}

故障转移设计需要在检测速度、转移成本和数据一致性之间找到平衡点。