← Blog
September 1, 2025

Mueva grandes volúmenes de datos con rapidez: rclone + sumas de verificación (patrones prácticos)

Mover conjuntos de datos es la mitad del trabajo. Hazlo una vez, hazlo bien. Esta es una forma limpia y repetible de obtener datos de gran tamaño en y fuera de su servicio de computación de GPU con integridad cheques y transferencias reanudables.

Qué cubre esto

  • Instalación y configuración clonar en una plantilla preparada para CUDA
  • Copiar hacia/desde Compatible con S3 almacenamiento y SSH/SFTP servidores
  • Hacer y verificar SHA-256 manifiesta
  • Reanudar de forma segura tras las desconexiones
  • Escoja tamaños de trozos, paralelismo, y compresión ese asunto

Opinión: uso clonar para almacenamiento en la nube/objetos; utilice rsync solo para copias LAN/SSH cuando ambos extremos son POSIX y necesita enlaces rígidos o permisos.

Start in seconds with the fastest, most affordable cloud GPU clusters.

Launch an instance in under a minute. Enjoy flexible pricing, powerful hardware, and 24/7 support. Scale as you grow—no long-term commitment needed.

Try Compute now

1) Instale rclone (una vez por plantilla)

Dentro de tu contenedor en funcionamiento:

curl -FSSL https://rclone.org/install.sh | sudo bash
versión rclone

Mantén rclone en tu plantilla personalizada para que no repitas esto.

2) Configurar un control remoto (S3 o SSH)

Inicie la configuración interactiva:

configuración rclone

Añadir un mando a distancia:

  • S3 (AWS, MinIO, Wasabi, etc.): elige s3, conjunto proveedora, región, y claves de acceso.
  • SFTP/SSH: elegir sftp, defina el host, el puerto y la ruta clave.

No conviertas secretos en imágenes. Almacene las claves de acceso en la configuración de rclone o defina las variables de entorno en tiempo de ejecución.

Solo en formato virtual (sin configuración interactiva): ejemplo de S3

exportar RCLONE_CONFIG_MYREMOTE_TYPE=S3
exportar RCLONE_CONFIG_MyRemote_Provider=AWS
exportar RCLONE_CONFIG_MYREMOTE_ACCESS_KEY_ID=xxxx
exportar rclone_config_myremote_secret_access_key=yyyy
# opcional: punto final personalizado
# exportar RCLONE_CONFIG_MyRemote_Endpoint= https://s3.my-org.example

3) Copie los datos (y reanude si se estropea)

A la instancia (S3 → NVMe)

# desplace un conjunto de datos a /data local
mkdir -p /datos
rclone copy myRemote: conjuntos de datos/ProjectA /data\
--progress --transfiere 16 --fichas 8 --lista rápida\
--s3-chunk-size 64M --s3-upload concurrencia 6

Desde instancia (NVMe → S3)

rclone copy /data/results myRemote:Results/ProjectA\
--progress --transfiere 16 --fichas 8 --lista rápida\
--s3-chunk-size 64M --s3-upload concurrencia 6

  • Reanudable: rclone reanuda automáticamente las transferencias interrumpidas.
  • Afinación: comience con la configuración anterior; suba --transferencias suavemente hasta que el ancho de banda o las IOPS se saturen. Objetos grandes como .tar.zst prefiero más grande --tamaño de trozo s3 (128 MILLONES O MÁS).

Ejemplo de SSH/SFTP

rclone copy /data/results sftpremote: /srv/Results/ProjectA\
--progreso --transferencias 8 --fichas 4

4) Integridad: manifiestos SHA‑256 en los que puede confiar

Haga un manifiesto en el fuente, copiar datos y manifieste y, a continuación, verifique en el destino.

Crear manifiesto en la fuente

cd /data/resultados
clonar hashsum SHA-256 > SHA256SUMS.txt

Copiar datos + manifiesto

rclone copy /data/results myRemote: Results/ProjectA --progress
rclone copy /data/results/SHA256SUMS.txt MyRemote:Results/ProjectA

Verificar en el destino (descargado)

# Opción A: verificar después de volver a descargarla en otro equipo
rclone copy myremote:Results/ProjectA. /ProyectoA
d ProjectA y sha256sum -c SHA256SUMS.txt

Verificación in situ (lista remota de hash)

# Si su control remoto muestra SHA-256/MD5, enumere los hashes remotos y compárelos
rclone hashsum SHA-256 MyRemote:Results/ProjectA > REMOTE_SHA256.txt
# diff REMOTE_SHA256.txt con tu manifiesto local (las rutas deben coincidir)

Si el almacén de objetos no muestra hashes seguros por parte (algo común en S3 multiparte), confíe en flujo de trabajo de manifiesto: volver a calcular localmente después de descargar y comparar.

5) Sincronizar frente a copiar y eliminar la seguridad

  • copiar solo agrega o actualiza archivos en el destino.
  • sincronizar hace el destino concuerda la fuente (incluidas las eliminaciones). Utilízalo con cuidado:

rclone sync /data/results myRemote:Results/ProjectA --progress --delete-before

Añadir --funcionamiento en seco primero en previsualizar las eliminaciones.

6) Menos archivos = transferencias más rápidas (agrupar de forma inteligente)

Millones de pequeños archivos se atascan en los metadatos. Agrupe de forma lógica y, a continuación, comprima.

# agrupar y comprimir (multinúcleo)
cd /data/run123
tar -I 'zstd -T0 -19' -cf run123.tar.zst.
# sube el único archivo + un pequeño archivo MANIFEST con el contenido
rclone copy run123.tar.zst myremote:runs/ --progress

Prefiero zstd para mayor velocidad; utilice cerdos para compatibilidad con gzip. Mantén los paquetes por debajo de unas pocas decenas de GB si necesitas volver a ejecutarlos parcialmente de forma sencilla.

7) Mueva datos entre grupos o proyectos

Puedes copiar remote→remote sin tener que ir a la instancia:

rclone copy awsa:bucketa/prefijo GSB:bucketb/prefix --progress --transfers 32 --checkers 16

Funciona en todos los proveedores si ambos controles remotos están configurados.

8) Perillas de ancho de banda y confiabilidad

  • --límite de ancho de banda 100 M para limitar el ancho de banda si compartes un enlace.
  • --reintentos 8 --reintentos de bajo nivel 20 para caminos escamosos.
  • --tiempo de espera 2 m --contimeout 10 s para ajustar los puntos finales lentos.
  • --suma de comprobación pide a rclone que use hashes cuando el control remoto los admite.

Registra el comando exacto en tu tarjeta de carrera.

9) rsync cuando ambos extremos son POSIX

Para SSH en LAN o en una WAN bien conectada, rsync es genial:

rsync -avHP --delete --partial --partial-dir=.rsync-partial\
/data/results user @host: /srv/Results/Projecta

--parcial dejemos que los currículums continúen. ¿Sigues escribiendo un Manifiesto SHA‑256 y verifique.

10) Conceptos básicos de seguridad

  • Guarde las claves de acceso configuración rclone o variables de entorno, no en imágenes.
  • Monta secretos en tiempo de ejecución; no los guardes.
  • Prefiero VPN/SSH para abrir cubos. Si son públicas, restringe por IP y caducan rápidamente las URL prefirmadas.

Fragmento de métodos (copiar y pegar)

transferencias:
herramienta: «rclone 1.xx»
fuente:
tipo: «local | s3 | sftp | gcs | azur | minio»
URL: «<path or remote:bucket/prefix>»
destino:
tipo: «local | s3 | sftp | gcs | azur | minio»
URL: «<path or remote:bucket/prefix>»
comando: |
rclone copy <src><dst>--transfers 16 --checkers 8 --s3-chunk-size 64 M --progress
manifiesto:
algo: «SHA-256"
archivo: "SHA256SUMS.txt»
verificado: «sí | no»
notas: «tamaño del grupo de filas, compresión, cualquier intento o tiempo de espera»

Lectura relacionada

Prueba Compute hoy

Inicia una instancia de GPU con una plantilla preparada para CUDA (p. ej., Ubuntu 24.04 LTS/CUDA 12.6) o tu propia imagen de GROMACS. Disfrute de una facturación flexible por segundo con plantillas personalizadas y la posibilidad de iniciar, detener y reanudar las sesiones en cualquier momento. ¿No está seguro de los requisitos de FP64? Póngase en contacto con el servicio de asistencia para que le ayuden a seleccionar el perfil de hardware ideal para sus necesidades informáticas.