Red de conocimiento informático - Problemas con los teléfonos móviles - Cómo leer nombres de archivos en Spark

Cómo leer nombres de archivos en Spark

Apache Spark en sí

1. MLlib

AMPLab

Spark nació originalmente en el laboratorio AMPLab de Berkeley y todavía es un proyecto desarrollado por AMPLab. No en la Fundación Apache Spark, pero aún tienen una gran presencia en sus proyectos diarios.

ML Base

El MLLib de Spark está en la parte inferior de ML Base de tres niveles, MLI está en el medio y ML Optimizer está en la parte superior porque es el más abstracto. .

2.MLI

3.ML Optimizer (también conocido como Ghostface)

Ghostware Este proyecto comenzó en 2014, pero nunca se ha anunciado al público. De estas 39 bibliotecas de aprendizaje automático, este es el único software de nebulización que se incluye en esta lista únicamente gracias al respaldo de la posición de AMPLab en ML Base.

Fuera de ML Base

4.Splash

Este es un proyecto reciente de junio de 2015. Cuando se ejecuta el descenso de gradiente estocástico (SGD), este algoritmo de aprendizaje aleatorio afirma funcionar entre un 25% y un 75% más rápido que Spark MLib. Este es un proyecto de marcado sp de AMPLab Labs, por lo que vale la pena leerlo.

5.Keystone ML

KML introdujo un canal de aprendizaje automático de un extremo a otro en Spark, pero el canal ha madurado en las versiones recientes de Spark. Nuevamente, prometemos algunas capacidades de visión por computadora sobre las que ya he escrito en blogs antes, pero existen algunas limitaciones.

6.Velox

Dedicado como servidor para gestionar grandes colecciones de modelos de aprendizaje automático.

7.CoCoA

Como se describe en este artículo "Comunicación eficiente Ascenso bicoordinado distribuido", al utilizar la reproducción aleatoria para optimizar el modo de comunicación, se puede lograr una comunicación más eficiente con una máquina rápida. aprendiendo.

Framework

Basado en GPU

8.DeepLearning4J

Una de las publicaciones de mi blog describe esto: "DeepLearning4J agrega compatibilidad con Spark GPU" .

9. Elephas

Un nuevo concepto, que es también la intención original de escribir este blog. Proporciona una interfaz para Keras.

No basado en GPU

10.DistML

Servidor de parámetros en modo paralelismo en lugar de paralelismo de datos (como Spark MLib).

11.Aerosolve

De Airbnb para precios automatizados.

12.Zen

Regresión estocástica logística, distribución de Dirichlet implícita (LDA), máquinas de factorización, redes neuronales, máquinas de Boltzmann restringidas.

13. DataFrame distribuido

Similar a Spark DataFrame, pero independiente del motor (por ejemplo, en el futuro se ejecutará en el motor en lugar de Spark). Estos incluyen validación cruzada e interfaces para bibliotecas externas de aprendizaje automático.

Interfaces con otros sistemas de aprendizaje automático

14.Spark-corenlp

Envuelve Stanford CoreNLP.

15.Sparkit-learn

Interfaz con Python Scikit-learn.

16.Sparkling Water

Proporciona interfaces con las siguientes aplicaciones:

17.

17.Hivemall-spark

p>

Encapsula Hivemall, que es el aprendizaje automático en Hive.

18.Spark-pmml-exporter-validator

Exporta lenguaje de marcado de modelo predictivo (PMML), un formato XML estándar de la industria para entregar modelos de aprendizaje automático.

Funcionalidad adicional: mejora los algoritmos existentes en MLlib.

19.MLlib-dropout

Agrega función de abandono a Spark MLLib. Esta implementación se basa en el siguiente artículo: Abandono: una forma sencilla de prevenir el sobreajuste en redes neuronales.

20.generalized-kmeans-clustering

Agregue una función de distancia arbitraria al algoritmo K-Means.

21.Spark-ml-streaming

Algoritmo de aprendizaje automático de transmisión visual integrado en Spark MLlib.

Algoritmo

Aprendizaje supervisado

22.

23.ScalaNetwork

Red neuronal recurrente (RNN).

24.dissolve-struct

Soporta Vector Machine (SVM) basado en el marco de comunicación Spark de alto rendimiento mencionado anteriormente bajo CoCoA.

25. Flashing Fern

Basado en la implementación del siguiente artículo "Tecnología de clasificación de imágenes utilizando algoritmos de bosque aleatorio y helecho aleatorio".

26. Factorización matricial en streaming

Sistema de recomendación de factorización matricial.