Volver al blog
Oracle 2 min de lectura

CRS-4535: cómo restablecer la comunicación con Cluster Ready Services en Oracle RAC 12c

En clústeres Oracle RAC 12c, CRS-4535 suele aparecer cuando el filesystem donde residen los binarios de Grid Infrastructure se llena y CRSD deja de responder. Pasos para diagnosticar y reactivar el servicio sin reiniciar el nodo.

CRS-4535: Cannot communicate with Cluster Ready Services en Oracle RAC 12c

Si gestionas un clúster Oracle RAC 12c y al operar sobre los recursos del clúster aparece el error CRS-4535, hay una causa habitual y manejable detrás: el filesystem donde residen los binarios de Grid Infrastructure se llenó y el servicio CRSD dejó de comunicarse con el resto del stack.

El error

CRS-4535 · CRS-4000

CRS-4535: Cannot communicate with Cluster Ready Services
CRS-4000: Command Status failed, or completed with errors

En paralelo, crsctl reporta que el resto del stack sí está vivo:

CRS-4638: Oracle High Availability Services is online
CRS-4529: Cluster Synchronization Services is online
CRS-4533: Event Manager is online

La causa

En la mayoría de casos, este escenario se origina por eventos de llenado del filesystem donde residen los binarios del Grid Infrastructure. Conviene descartar también otras causas posibles:

  • Problemas de comunicación entre los nodos del RAC (red privada / interconnect).
  • Problemas de permisos en el storage compartido (OCR, voting disks).
Diagrama de la secuencia de arranque de Oracle Clusterware: niveles 0 a 4, desde INIT y OHASD hasta los recursos gestionados por CRS.
Secuencia de arranque de Oracle Clusterware. El error CRS-4535 indica que CRSD (Nivel 2) no responde, aunque OHASD, CSSD y EVMD sí estén arriba.

La solución

Una vez liberado el filesystem (o resuelta la causa raíz), reactiva el servicio CRSD sin reiniciar el nodo. Pasos en orden:

  1. Verifica que solo CRSD esté afectado y no todo el stack.
  2. Comprueba a nivel de sistema operativo si el proceso crsd.bin está vivo.
  3. Arranca el recurso ora.crsd con la flag -init (no reinicia el nodo).
  4. Confirma que todos los recursos quedaron ONLINE.
# 1 · Estado del stack — confirmar que solo CRSD está caído
./crsctl check crs

# 2 · ¿Está vivo el proceso crsd.bin?
ps -fea | grep crsd.bin

# 3 · Arrancar el recurso CRSD (sin reiniciar el nodo)
./crsctl start res ora.crsd -init

# 4 · Validar que todos los recursos quedaron ONLINE
./crsctl stat res -t

Resultado

Con CRSD de nuevo en línea, el clúster vuelve a coordinar la gestión de recursos (ASM, listeners, services) y los comandos crsctl dejan de devolver CRS-4535 / CRS-4000. Si el filesystem volviera a llenarse, conviene investigar la causa raíz: rotación de alert.log y trazas de CRS, auditoría, o crecimiento no controlado del diagnostic dest.