Red de conocimiento informático - Conocimiento informático - Cómo operar un servidor

Cómo operar un servidor

Resumen: Un servidor, también llamado servidor, es un dispositivo que proporciona servicios informáticos. Dado que el servidor necesita responder a las solicitudes de servicio y procesarlas, en términos generales, el servidor debe tener la capacidad de realizar servicios y garantizarlos. Una vez que el servidor se conecta, básicamente funcionará de forma ininterrumpida y las 24 horas del día; de lo contrario, afectará la experiencia comercial y del usuario. Entonces, ¿cómo operar un servidor? ¡Aprendamos sobre las precauciones de funcionamiento del servidor! 1. ¿Cómo funciona el servidor?

Verifique el uso del disco. Cuando el uso del disco exceda 80, puede borrar algunos archivos de registro;

Verifique el uso de la memoria. Cuando se usa demasiada memoria, debe verificar cuál. ¿Es razonable que el proceso lo esté ocupando?

Verifique el uso de la CPU y el tamaño de la carga cuando la CPU se usa demasiado y la carga es demasiado grande, debe verificar qué proceso la está ocupando y si está ocupada. es razonable.

Consulta las estadísticas de la interfaz de la tarjeta de red del servidor y el número y tráfico de paquetes enviados y recibidos por segundo.

También debe combinarse con el negocio del servidor. Por supuesto, estos se pueden verificar automáticamente mediante software de monitoreo, alarmas de falla, etc., para comprender el estado de ejecución del servidor en tiempo real.

2. Precauciones para el funcionamiento del servidor

1. Verifique con anticipación

Detección de vulnerabilidades del servidor y del sitio web, incluidas vulnerabilidades web, contraseñas débiles, posibles comportamientos maliciosos y actividades ilegales La información, etc. se escanea periódicamente.

Inspección periódica de código, inspección de seguridad e inspección de vulnerabilidad.

Refuerzo de seguridad del servidor, configuración de la línea base de seguridad, verificación de la línea base de seguridad.

Los comandos ejecutados por la base de datos, como agregar campos, agregar índices, etc., deben probarse y verificarse antes de que puedan ejecutarse en el entorno formal.

2. Copia de seguridad de datos

Copia de seguridad de datos del servidor, incluida la copia de seguridad de archivos de programas del sitio web, copias de seguridad de archivos de bases de datos y copias de seguridad de archivos de configuración. Si hay recursos disponibles, se realizan copias de seguridad cada hora y copias de seguridad fuera del sitio. mejor.

Establezca un mecanismo de copia de seguridad de cinco capas: copia de seguridad periódica, sincronización automática, instantánea LVM, copia de seguridad de Azure y copia de seguridad S3.

Compruebe periódicamente si el archivo de copia de seguridad está disponible para evitar que los datos de la copia de seguridad no estén disponibles después de un error.

Los datos importantes se cifran mediante múltiples algoritmos de cifrado.

Control de versiones de archivos de programa, pruebas, publicación y reversión de fallas.

3. Monitoreo de seguridad

nagios monitorea el estado regular de la carga de la CPU, la memoria, el disco y el tráfico del servidor, y genera alarmas cuando se exceden los umbrales.

Zabbix o cactus monitorea el estado general del servidor, como carga de CPU, memoria, disco, tráfico, etc., y puede mostrar curvas históricas para facilitar la resolución de problemas.

Supervise los registros de inicio de sesión SSH del servidor, el estado de iptables y el estado del proceso, y alerte si hay registros anormales.

Para monitorear los registros WEB del sitio web (incluidos los registros de nginx, php, etc.), puede usar EKL para recopilarlos y administrarlos, y alertar si hay registros anormales.

El personal de operación y mantenimiento debe recibir correos electrónicos y mensajes de texto de alarma. Se deben recibir al menos los correos electrónicos y mensajes de texto de alarma comerciales de los que son responsables. Los gerentes de operación y mantenimiento deben recibir correos electrónicos y mensajes de texto de alarma comerciales importantes. (A menos que sea un desarrollador de operación y mantenimiento a tiempo completo)

Además del monitoreo interno del servidor, es mejor utilizar el monitoreo de terceros para monitorear si el negocio es normal desde el exterior (monitoreo URL, puerto, etc.), como: Monitoreo de Bao.

4. Prevención y evitación de fallos

Agregue WAF al sitio web WEB para evitar amenazas de vulnerabilidad como secuencias de comandos entre sitios XSS, inyección SQL y malware de páginas web.

El código del programa se conecta a la base de datos, Memcache, Redis, etc., y puede usar el nombre de dominio (el nombre de dominio HOSTS especifica la IP. Cuando ocurre un problema y hay un servidor de respaldo, el). El servicio se puede restaurar modificando el DNS o HOSTS.

Establezca un mecanismo de plan de emergencia, practique periódicamente escenarios de accidentes y estime el tiempo de reparación.

Implemente un sistema honeypot para evitar ataques APT en intranets empresariales y de servidores.

Establecer un clúster de doble actividad, que incluya alta disponibilidad de servicios empresariales, para evitar un único punto de servicios empresariales.

El clúster de servidores utiliza una máquina trampolín o una máquina bastión para iniciar sesión y evitar que cada servidor del clúster de servidores se conecte y administre de forma remota.

Antes de actualizar, migrar y ampliar servicios importantes, enumere los pasos de la operación. Cuanto más detallados, mejor siga los pasos para la operación real y mantenga registros una vez completada la operación.

5. Operación durante el evento

Agregue WAF al sitio WEB y, si se encuentran XSS, inyección SQL, malware de páginas web y otros ataques, se interceptarán y registrarán automáticamente. .

Compruebe si la copia de seguridad de los datos del servidor está disponible.

Cuando se trata de requisitos y fallas, debe confirmar nuevamente al ejecutar comandos riesgosos (como rm, reiniciar, reiniciar, etc. Antes de ejecutar el comando, verifique el servidor y la ruta del servidor antes de ejecutarlo).

No conduzca si está cansado, no se suba al ordenador después de beber alcohol, no beba mientras esté delante del ordenador y, sobre todo, no toque la base de datos para evitar ejecutar comandos incorrectos en el servidor mientras no esté despierto, lo que puede provocar la pérdida de datos o el fracaso del negocio.

Ante un accidente, se debe considerar si las medidas de manipulación provocarán una falla en cascada y pensarlo dos veces antes de realizar operaciones importantes.

6. Inspección y análisis post-mortem

Realice la gestión visual de la seguridad de la red, puede ver las solicitudes de IP y URL anormales todos los días, la lista de puertos abiertos del clúster de servidores. , etc. Capaz de gestionar de forma centralizada las políticas de seguridad para toda la red. Unifique la recopilación y el análisis de registros.

Funciones de copia de seguridad y recuperación de manipulaciones, copia de seguridad de archivos de programa, imágenes, archivos de datos y archivos de configuración, y mecanismo de reversión de fallas.

Lleve a cabo análisis en profundidad de los registros de ataques, muestre las rutas y fuentes de ataque y ayude a los administradores a rastrear la fuente.

Practique la cultura sin culpas de DevOps, especialmente al realizar análisis de incidentes. El análisis de accidentes se centra en localizar las causas y formular medidas de mejora.