Red de conocimiento informático - Conocimiento informático - ¿Es difícil aprender Linux?

¿Es difícil aprender Linux?

Linux es un tema con una curva de aprendizaje pronunciada. Es un poco difícil de aprender al principio, pero se vuelve relativamente fácil después de comenzar. La mayoría de las personas que aprenden Linux trabajan como ingenieros de operación y mantenimiento o ingenieros de computación en la nube.

La operación y el mantenimiento no se trata solo de comprender Linux, porque también hay una gran parte de la operación y el mantenimiento de Windows. Recientemente leí un informe de que los servidores de Windows representaban el 47,71%. Bueno, un saludo al personal de operación y mantenimiento de Windows. Por supuesto, nuestro artículo no significa que además de comprender Linux, la operación y el mantenimiento también deban comprender Windows, sino que involucra otros aspectos de la operación y el mantenimiento.

Implementación del entorno

Al principio, el mundo se desarrolló y luego se operó y mantuvo.

Desarrollar e implementar la lógica del producto. Una vez completado el desarrollo del producto, enviarlo a operación y mantenimiento para su implementación. En este momento, debe preparar el entorno de implementación, como implementarlo en un servidor Linux e instalar el software correspondiente, como Apache, Nginx, Tomcat, JDK, PHP, MySQL, etc. No puede simplemente instalar el software, también debe verificar qué versión es. Todavía existen algunas diferencias entre Java 7 y Java 8. También existen algunas incompatibilidades de sintaxis entre php5 y php7. Una vez instalado el software, ¿puede conectarse? Todavía no funciona. Si aún necesita realizar pruebas, debe implementar un entorno de prueba. A veces, el entorno de desarrollo también requiere operación y mantenimiento para su implementación.

Solución de problemas y ajustes

Las cosas nunca salen bien.

No mucho después de estar en línea, el servicio recibió un 502 y el jefe todavía me regañó. Aunque está lleno de quejas, solo soy una persona de operación y mantenimiento. No escribí el código. ¿Por qué debería asumir la culpa? ! El agravio es un agravio, no se puede acceder al servicio, es una cuestión de operación y mantenimiento. Localizar y solucionar el problema lo antes posible es el camino a seguir. ¿Cómo localizar el problema? La forma más sencilla y directa es leer registros, registros del sistema y registros relacionados con el software, y combinar síntomas de fallas y experiencia para localizarlos y recuperarlos rápidamente. Entonces es el momento de resumir la experiencia, aprender lecciones y redactar un informe del accidente. Bien, ahora sabes que necesitas realizar ciertas operaciones de ajuste en el entorno del sistema y dejar de ser un chivo expiatorio.

Tecnologías relacionadas: top, vmstat, iftop, awk, sed, sar, iostat, strace,...

Copia de seguridad

Haz el mejor plan, Prepárate para lo peor.

Aún tenemos ante nosotros las lecciones del reciente incidente de eliminación de la base de datos de GitLab. Se perdieron varias horas de datos. Aunque la mayoría de las estrategias de copia de seguridad fallaron, todavía guardamos una copia de seguridad hace unas horas, por lo que sí. no hay problema, provocando mayor pérdida de datos y pérdidas de la empresa. Necesitamos respaldo y redundancia para equipos, respaldo y respaldo fuera de línea de bases de datos, respaldo estático y redundancia para sitios web y respaldo de salas de computadoras. Sería mejor poder lograr un respaldo activo-activo.

Tecnologías relacionadas: rsync, crontab, lvm snapshot, mysqldump, extrabackup, backup completo, backup diferencial, backup incremental, backup off-site offline,...

Alta disponibilidad y cluster

No existe la inmortalidad. No podemos garantizar que el hardware esté en línea las 24 horas del día, pero debemos asegurarnos de que el servicio esté en línea las 24 horas del día.

Después de que ocurre una falla, si se garantiza una alta disponibilidad y redundancia, la falla se cambiará automáticamente y el nodo defectuoso se eliminará, garantizando así el servicio en línea en tiempo real. Sin el conocimiento del jefe y de los usuarios, si la falla se maneja en silencio, el KPI se guardará y tal vez haya una bonificación.

Tecnologías relacionadas: F5, Nginx, LVS, HA-proxy, MHA, Zookeeper, varias otras soluciones de clúster distribuido,...

Monitorización de alarmas

El Primer movimiento de liberación de ingenieros de operación y mantenimiento.

Siempre estás preocupado por la caída del sitio web, los 365 días del año, los 7 días de la semana, las 24 horas del día, y siempre estás muy nervioso. Incluso si eres un dios, no podrás. para aguantar. Necesitamos una máquina para supervisar el trabajo de otras máquinas y necesitamos liberarnos.

Cuando ocurre una falla, se notifica al ingeniero de operación y mantenimiento correspondiente a través de SMS, WeChat, DingTalk, correo electrónico, etc. para que la maneje, o incluso cambia o elimina automáticamente el nodo defectuoso, y luego solucionamos el problema del nodo defectuoso sin conexión.

Tecnologías relacionadas: Zabbix, Nagios, Cacti, Prometheus, open-halcon, Ganglia, sar,...

Seguridad y auditoría

Ejecución en Internet En la carretera ancha, algunas personas corren desnudas.

Un entorno de red y una configuración de servidor inseguros equivalen a funcionar desnudo en el mundo en línea, y cualquiera puede espiar su privacidad. ¿Su aplicación está protegida contra inyección SQL? ¿Está habilitado su firewall? ¿Sigues usando root+contraseña para iniciar sesión en el servidor? El sitio web está habilitado para es, Xen, CoreOS, Hyper-V, KVM, ...