Es difícil preparar una comida sin arroz. ¿Qué es más importante, la potencia informática, el algoritmo o los datos?
Aunque no podemos juzgar absolutamente quién es más importante que quién, en aplicaciones prácticas los datos suelen ser más importantes. Hay varias razones:
En muchos problemas, la "bondad" de un algoritmo no tiene sentido sin el respaldo de una gran cantidad de datos válidos. En otras palabras, la calidad de los resultados obtenidos por muchos algoritmos depende enteramente de qué tan bien se ajustan a los datos reales. Sin suficiente soporte de datos y pruebas, el algoritmo de diseño es casi equivalente a trabajar a puerta cerrada.
Muchos algoritmos tendrán un montón de parámetros ajustables. No existe un estándar a seguir para la selección de estos parámetros. No es más que arrojar una gran cantidad de datos para ver qué cambios en los resultados provocarán los cambios en los parámetros. Grandes cantidades de datos válidos se convierten en la única forma viable de optimizar dichos algoritmos.
Un ejemplo más extremo es que el algoritmo en sí es muy simple y la mejora del programa depende completamente del entrenamiento de datos. Como las redes neuronales.
Para muchos algoritmos maduros, la mejora incremental del algoritmo de optimización suele ser mucho menor que el aumento de los datos de entrada (esta es una consideración económica).
Por ejemplo, Google es el ejemplo de la pregunta. Los motores de búsqueda anteriores han hecho un buen trabajo en la indexación de algoritmos basados en contenido web. Si desea realizar mayores mejoras, debe cambiar su forma de pensar. La adopción del algoritmo PageRank aumenta en gran medida la cantidad de datos de entrada, y los datos del enlace en sí son críticos para la clasificación de la página web (por supuesto, también han optimizado mucho el algoritmo).
Introducción relacionada:
Los datos (datos) son el resultado de hechos u observaciones, una inducción lógica de cosas objetivas y una materia prima sin procesar que se utiliza para representar cosas objetivas.
Los datos pueden ser valores continuos, como sonidos e imágenes, llamados datos analógicos, o valores discretos, como símbolos y texto, llamados datos digitales. En los sistemas informáticos, los datos se representan en forma de unidades de información binaria 0 y 1.