Cómo los big data cambian el panorama de las bases de datos.
Hablando de "base de datos", la mayoría de la gente pensará en RDBMS con una historia de más de 30 años. Sin embargo, esto puede cambiar pronto.
Un gran número de nuevos competidores están compitiendo por este importante mercado. Sus enfoques varían, pero todos tienen una cosa en común: un enfoque extremo en big data. La mayoría de los derivados que promueven nuevas iteraciones de datos se basan en las características 3V del big data subyacente: volumen, velocidad y variedad. Básicamente, los datos actuales son más rápidos, más grandes y más diversos que nunca. Este es un nuevo mundo de datos; en otras palabras, los sistemas tradicionales de gestión de bases de datos relacionales no están realmente diseñados para este propósito. "Básicamente, no se adaptan a grandes volúmenes, alta velocidad o diferentes tipos de datos", dijo Gregory, presidente de una consultoría de análisis y ciencia de datos. Eso es lo que Hart Hanks descubrió recientemente. Aproximadamente en 2013, Marketing Services utilizaba una base de datos diferente, incluida una combinación de Microsoft SQL Server y Oracle Real Application Cluster (RAC). "Nos dimos cuenta de que a medida que los datos seguían creciendo, nuestros sistemas no podían procesar la información lo suficientemente rápido", dijo Sean, director de una empresa de desarrollo tecnológico. "Si sigues comprando servidores, sólo podrás llegar hasta cierto punto. Queremos asegurarnos de que tenemos una plataforma para escalar". Minimizar las interrupciones es un objetivo importante, dijo Iannuzzi, por lo que "no podemos simplemente pasar a Hadoop". En su lugar, eligió Splice, que esencialmente coloca una base de datos SQL completa en la popular plataforma de big data Hadoop y permite que las aplicaciones existentes se conecten a ella, según él. Harthanks se encuentra ahora en las primeras etapas de implementación, pero ya está viendo beneficios que incluyen una mejor tolerancia a fallas, alta disponibilidad, redundancia, estabilidad y "mejoras en el rendimiento general". Carl Olofson, vicepresidente de investigación de IDC, dijo que una tormenta perfecta ha promovido el surgimiento de nuevas tecnologías de bases de datos. En primer lugar, "el equipo que utilizamos es más rápido y más flexible a la hora de procesar grandes conjuntos de datos que en el pasado", afirmó Olofsson. En el pasado, explicó, tales colecciones "casi tenían que estar en un disco giratorio" y los datos tenían que organizarse de una manera específica. Ahora, con el direccionamiento de 64 bits, esto hace posible crear espacios de almacenamiento más grandes y redes más rápidas, además de encadenar varias calculadoras en una base de datos grande. "Estas cosas abren posibilidades incluso antes de que se utilicen", dijo Olofson. Al mismo tiempo, la carga de trabajo también ha cambiado. Los sitios web hace 10 años eran principalmente estáticos, como el entorno de servicios en línea y la experiencia de compra interactiva que disfrutamos hoy. A su vez, se necesita una nueva escalabilidad, afirmó. Las empresas están utilizando los datos de nuevas formas. Si bien tradicionalmente la mayoría de nuestros esfuerzos se han centrado en registrar transacciones, como las ventas totales, con los datos almacenados en un lugar que pueda analizarse, ahora hacemos mucho más. La gestión del estado de las aplicaciones es un ejemplo. Supongamos que estás jugando un juego en línea. Esta tecnología registrará cada conversación entre usted y el sistema y las conectará para presentar una experiencia continua. Incluso si cambias de dispositivo o te mudas, otro servidor se encargará de ello, explicó Olofsson. Los datos deben ser continuos para que las empresas puedan analizar preguntas como "¿Por qué nadie pasa nunca por el Crystal Hall?" En las compras en línea, ¿por qué la mayoría de las personas no compran una marca específica de zapatos después de que la otra parte hace clic en el color? "Antes no intentábamos resolver estos problemas, o no era apropiado que intentáramos tirarlos a una caja", dijo Olofson. Hadoop es un peso pesado entre los nuevos competidores de hoy. Aunque no es una base de datos en sí, su crecimiento juega un papel clave en las empresas que resuelven big data. En esencia, Hadoop es una plataforma de centro de datos que ejecuta aplicaciones altamente paralelas y es altamente escalable. Al permitir a las empresas escalar un modelo de distribución "de salida" en lugar de "ascendente" con servidores costosos adicionales, "nos permite resumir un gran conjunto de datos a bajo costo y luego analizar los hallazgos", dijo Olofson. Otras nuevas alternativas a RDBMS son la familia de productos NoSQL, incluido MongoDB, actualmente el cuarto sistema de gestión de bases de datos más popular en comparación con DB Engine y los servicios de almacenamiento de datos no estructurados MarkLogic.
"Las bases de datos relacionales han sido una gran tecnología durante 30 años, pero se crearon en una era diferente con diferentes limitaciones técnicas y diferentes necesidades del mercado", afirmó Joe Paca, vicepresidente ejecutivo de MarkLogic. Los macrodatos son desiguales, afirmó. Para muchas tecnologías tradicionales, este sigue siendo un requisito básico. "Imagínese que el único programa en su computadora portátil es Excel", dijo Capa. "Imagínese que desea mantenerse en contacto con sus amigos a través de Internet, o que está redactando un contrato, pero no cabe en una lista". Empalmar los conjuntos de datos es especialmente complicado "antes de poder colocar todos estos datos". "Juntos, hay que empezar por decidir cómo organizar todas las columnas", añadió. "Podemos tomar cualquier forma o estructura y comenzar a usarla inmediatamente". Las bases de datos NoSQL no utilizan un modelo de datos relacional y normalmente no tienen una interfaz SQL. Si bien muchas compensaciones del almacenamiento NoSQL respaldan otros factores como la velocidad, MarkLogic ofrece a las empresas una opción más completa. El mercado de almacenamiento NoSQL ha logrado grandes avances. No todo el mundo piensa que esto es lo correcto, al menos no en todos los casos, según los medios de investigación de mercado. Los sistemas NoSQL "resuelven muchos problemas, escalan la arquitectura horizontalmente, pero abandonan SQL", dijo un director ejecutivo. Esto a su vez causó problemas al código existente. SpliceMachine es una empresa de tecnología de big data en tiempo real basada en Hadoop que admite el procesamiento de transacciones SQL y la optimización en tiempo real de OLAP y aplicaciones OLAP. Se le ha llamado un ejemplo de sustitución de NewSQL, otra categoría que se espera que crezca con fuerza en los próximos años. "La idea es mantener SQL pero ampliar el esquema", dijo Zweben. "Es algo nuevo, pero estamos tratando de que la gente no tenga que reescribirlo". Deep Information Sciences eligió SQL y se quedó con él, pero necesitaba otro enfoque. La base de datos DeepSQL de la compañía utiliza la misma interfaz de programación de aplicaciones (API) y modelo relacional que MySQL, lo que significa que su uso no requiere cambios en la aplicación. Pero procesa los datos de manera diferente y utiliza el aprendizaje automático. La compañía dice que DeepSQL se adapta automáticamente a hosts físicos, virtuales o en la nube utilizando cualquier combinación de cargas de trabajo, eliminando la necesidad de optimizar manualmente las bases de datos. Chad Jones, director de estrategia de la compañía, dijo que si bien el rendimiento ha mejorado enormemente, también tiene la capacidad de "escalar" a cientos de miles de millones de líneas. Un enfoque de los datos radicalmente diferente al del álgebra ix significó que se había desarrollado la primera base matemática real para los datos. El director ejecutivo de Algebra, Charles Silver, dijo que el hardware de la calculadora debe construirse antes que el modelado matemático, mientras que el software no. "El software, especialmente los datos, nunca se ha basado en las matemáticas", afirmó. "El software es en gran medida un problema de lenguaje". Después de cinco años de investigación y desarrollo, Algebra Systems creó lo que llama teoría de conjuntos de "álgebra de datos", "un lenguaje universal para datos", dijo Silver. "El pequeño y sucio secreto del big data es que los datos aún residen en un lugar que no está integrado con otros silos de datos", explica Silver. "Hemos demostrado que puede representar matemáticamente todas las integrales". Equipado con una plataforma básica, Algebra ix ahora ofrece servicios de análisis empresarial a empresas. El rendimiento, la capacidad y la velocidad mejorados están a la altura de la promesa. El tiempo dirá qué nuevos competidores tendrán éxito y cuáles no, pero mientras tanto, los líderes de larga data como Oracle no se quedarán completamente quietos. "El software es una industria que está muy de moda", afirmó Andrew Mendelssohn, vicepresidente ejecutivo de tecnología de servidores de bases de datos de Oracle. "Las cosas tienden a pasar de ser populares a impopulares y volver a ser populares", dijo, y hoy en día muchas empresas emergentes están "recuperándose". arroz frito con un poco de brillo o giro”. “Es algo que las nuevas generaciones de niños deben reinventar cuando salgan de la escuela. "SQL es el único lenguaje que permite a los analistas de negocios hacer preguntas y obtener respuestas. No tienen programadores", dijo Mendelsohn. "El gran mercado siempre será relacional". En cuanto a los nuevos tipos de datos, ya en los años 90 se desarrollaron productos de bases de datos relacionales para soportar datos no estructurados, afirmó. En 2013, la versión 12C de la base de datos de Oracle del mismo nombre agregó soporte para JSON (Notación de objetos JavaScript). Mendelsohn dijo que no es tanto la necesidad de un tipo diferente de base de datos sino un cambio en el modelo de negocio. "Si todo el mundo se va, Cloud destruirá a estos pequeños", dijo.
"Todo el mundo está en la nube. ¿Hay espacio para estos pequeños?". ¿Irán a la nube de Amazon para competir con Amazon? "Va a ser difícil", añadió. "Oracle tiene la gama más amplia de servicios en la nube", dijo Mendelsohn. "Nos sentimos bien aquí". Las nuevas alternativas no son completamente funcionales en comparación con los potentes sistemas de gestión de bases de datos relacionales tradicionales", afirmó Greenwald. Algunos casos de uso se pueden resolver con nuevos competidores, pero no todos, ni una sola tecnología. En el futuro, Greenwald predice que los proveedores de RDBMS tradicionales sentirán una presión cada vez mayor sobre los precios y agregarán nuevas características a sus productos. "Algunas personas pueden incorporar nuevos competidores a voluntad para gestionar todo su ecosistema de datos", afirmó. En cuanto a los nuevos productos, unos pocos sobrevivirán y predice que "muchos serán adquiridos o se quedarán sin dinero". La nueva tecnología actual no significa el fin de los RDBMS tradicionales, que están "evolucionando rápidamente", según Olofson de IDC. "Los RDBMS siempre tendrán un papel que desempeñar en el caso de datos claramente definidos, pero también habrá nuevos competidores", afirmó. En particular, las tecnologías emergentes como la tecnología IoT y NVDIMM han ganado ventaja.