Red de conocimiento informático - Problemas con los teléfonos móviles - Comprensión de la función pytorch.transforms.Compose()

Comprensión de la función pytorch.transforms.Compose()

Torchvision es una biblioteca de gráficos de pytorch que sirve al marco de aprendizaje profundo de PyTorch y se utiliza principalmente para construir modelos de visión por computadora. torchvision.transforms se utiliza principalmente para algunas transformaciones de gráficos comunes. La composición de torchvision es la siguiente:

1. torchvision.datasets: algunas funciones para cargar datos e interfaces de conjuntos de datos comunes

2. torchvision.models: contiene estructuras de modelos de uso común (; Incluyendo modelos previamente entrenados), como AlexNet, VGG, ResNet, etc.: transformaciones de imágenes de uso común, como recorte, rotación, etc.

4. torchvision.utils: algunos otros métodos útiles.

El módulo de transformaciones en pytorch contiene varias funciones para transformar datos de imágenes. Estas funciones son cruciales en el paso de leer datos de imágenes. El objetivo principal de esta clase es encadenar múltiples operaciones de transformación de imágenes.

torchvision.transforms.CenterCrop(224),

# Cambiar el tamaño de la imagen a 128*128 sin recortar

torchvision.transforms.Resize ((128, 128 )),

# Convertir a tensor y normalizar a (es decir, dividir los datos por 255) y cambiar H*W*C a C *H *W

torchvision. transforms.ToTensor(),

?# Los datos se normalizan a intervalos [-1, 1] en 3 canales. 3 canales, por lo tanto 3 valores. 0,485, 0,456, 0,406] se toma como muestra del conjunto de entrenamiento de la red de imágenes.

?#[0, 1] de ToTensor() solo cambia el rango, pero no cambia la distribución. La media y el estándar se convertirán en datos de distribución normal después del procesamiento.

torchvision. .transforma.Normalize(media=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.224, 0.226], std=[0.229, 0.229]).0.224, 0.225]),

] )