Red de conocimiento informático - Consumibles informáticos - Estimación del tamaño del clúster

Estimación del tamaño del clúster

Antecedentes: ¿QPS = 2 millones/segundo? Sin tiempo de inactividad durante el día

Es una estrategia más segura controlar el QPS pico en aproximadamente el 30 % del QPS total que el clúster puede transportar

Es decir, el clúster debe estar diseñado llevar un límite de QPS de 6 millones a 7 millones/s es seguro (es decir, la capacidad de procesamiento del clúster es de 3 a 4 veces el valor máximo)

Estimación del clúster de datos:

Suponga que se estima que el tamaño de cada dato es de 2 kb, 2 KB convertidos a G = 2/1024/1024, es decir, cada dato tiene aproximadamente 1,9073486328125e-6 GB

Estimación de almacenamiento :

Incremento de datos diarios: 2.000.000*24*60*60 =172.800.000.000 artículos/día

172.800.000.000*(2/1024/1024)=329.589,84375GB/día=321,8650817871094TB/día =0.314321368932724PB/día

0. 314321368932724*3*365PB/año = 344.1818989813328PB/año

Generalmente, el almacenamiento en clúster no excederá el 80% del tamaño total de almacenamiento, por lo que el El tamaño total de almacenamiento en un año es el siguiente:

344.1818989813328PB/0.8=430.227373726666PB/año,

Calculado en función de que cada nodo almacene 10 PB,

430.227373726666PB/10PB=43.0227373726666? Se necesitan alrededor de 44 nodos para almacenar un año de datos

Estimación de memoria:

Estimación de memoria, la estimación de memoria en realidad no tiene un estándar absoluto. Algunas empresas utilizan Flink para procesar datos de IoT utilizando solo unas pocas máquinas de menos de 10G. Por lo tanto, la estimación de la memoria es en realidad diferentes componentes: cuántas tareas deben ejecutarse, cuántas tareas en tiempo real, tareas fuera de línea, modelos de algoritmos, etc., son bastante diferentes.

Generalmente, los recursos ocupados por los reales. -Las tareas de tiempo son fijas según el negocio. Solo estima la cantidad. Las tareas sin conexión se pueden estimar en función de la cantidad de tareas ETL y la asignación de recursos de tareas. La activación simultánea de recursos informáticos sin conexión y en tiempo real no puede exceder el 90% de las necesidades de recursos de tareas en tiempo real. para ser inferior al 50%, las tareas en tiempo real requieren 2.000.000/s QPS, ventana de un minuto 2000000*60*(2/1024/1024)=228,9G, luego hay 228,9G/0,5=457,8G (uno-). cálculo de ventana de minutos)

2288,8G/44=52G/pieza (o 457,8G/44=10,40G/pieza)

Estimación de CPU:

La relación de CPU a RAM es generalmente 1:2 o 1:4, por supuesto, depende de cuántos subprocesos

Las CPU de 16 núcleos generalmente funcionan de la misma manera.

?Número de nodos 44

?Memoria ?56G

?CPU ?32 núcleos de CPU, compatible con instrucciones sse4.2

?