
Mover conjuntos de datos es la mitad del trabajo. Hazlo una vez, hazlo bien. Esta es una forma limpia y repetible de obtener datos de gran tamaño en y fuera de su servicio de computación de GPU con integridad cheques y transferencias reanudables.
Opinión: uso clonar para almacenamiento en la nube/objetos; utilice rsync solo para copias LAN/SSH cuando ambos extremos son POSIX y necesita enlaces rígidos o permisos.
Dentro de tu contenedor en funcionamiento:
curl -FSSL https://rclone.org/install.sh | sudo bash
versión rclone
Mantén rclone en tu plantilla personalizada para que no repitas esto.
Inicie la configuración interactiva:
configuración rclone
Añadir un mando a distancia:
s3, conjunto proveedora, región, y claves de acceso.sftp, defina el host, el puerto y la ruta clave.No conviertas secretos en imágenes. Almacene las claves de acceso en la configuración de rclone o defina las variables de entorno en tiempo de ejecución.
Solo en formato virtual (sin configuración interactiva): ejemplo de S3
exportar RCLONE_CONFIG_MYREMOTE_TYPE=S3
exportar RCLONE_CONFIG_MyRemote_Provider=AWS
exportar RCLONE_CONFIG_MYREMOTE_ACCESS_KEY_ID=xxxx
exportar rclone_config_myremote_secret_access_key=yyyy
# opcional: punto final personalizado
# exportar RCLONE_CONFIG_MyRemote_Endpoint= https://s3.my-org.example
A la instancia (S3 → NVMe)
# desplace un conjunto de datos a /data local
mkdir -p /datos
rclone copy myRemote: conjuntos de datos/ProjectA /data\
--progress --transfiere 16 --fichas 8 --lista rápida\
--s3-chunk-size 64M --s3-upload concurrencia 6
Desde instancia (NVMe → S3)
rclone copy /data/results myRemote:Results/ProjectA\
--progress --transfiere 16 --fichas 8 --lista rápida\
--s3-chunk-size 64M --s3-upload concurrencia 6
--transferencias suavemente hasta que el ancho de banda o las IOPS se saturen. Objetos grandes como .tar.zst prefiero más grande --tamaño de trozo s3 (128 MILLONES O MÁS).Ejemplo de SSH/SFTP
rclone copy /data/results sftpremote: /srv/Results/ProjectA\
--progreso --transferencias 8 --fichas 4
Haga un manifiesto en el fuente, copiar datos y manifieste y, a continuación, verifique en el destino.
Crear manifiesto en la fuente
cd /data/resultados
clonar hashsum SHA-256 > SHA256SUMS.txt
Copiar datos + manifiesto
rclone copy /data/results myRemote: Results/ProjectA --progress
rclone copy /data/results/SHA256SUMS.txt MyRemote:Results/ProjectA
Verificar en el destino (descargado)
# Opción A: verificar después de volver a descargarla en otro equipo
rclone copy myremote:Results/ProjectA. /ProyectoA
d ProjectA y sha256sum -c SHA256SUMS.txt
Verificación in situ (lista remota de hash)
# Si su control remoto muestra SHA-256/MD5, enumere los hashes remotos y compárelos
rclone hashsum SHA-256 MyRemote:Results/ProjectA > REMOTE_SHA256.txt
# diff REMOTE_SHA256.txt con tu manifiesto local (las rutas deben coincidir)
Si el almacén de objetos no muestra hashes seguros por parte (algo común en S3 multiparte), confíe en flujo de trabajo de manifiesto: volver a calcular localmente después de descargar y comparar.
copiar solo agrega o actualiza archivos en el destino.sincronizar hace el destino concuerda la fuente (incluidas las eliminaciones). Utilízalo con cuidado:rclone sync /data/results myRemote:Results/ProjectA --progress --delete-before
Añadir --funcionamiento en seco primero en previsualizar las eliminaciones.
Millones de pequeños archivos se atascan en los metadatos. Agrupe de forma lógica y, a continuación, comprima.
# agrupar y comprimir (multinúcleo)
cd /data/run123
tar -I 'zstd -T0 -19' -cf run123.tar.zst.
# sube el único archivo + un pequeño archivo MANIFEST con el contenido
rclone copy run123.tar.zst myremote:runs/ --progress
Prefiero zstd para mayor velocidad; utilice cerdos para compatibilidad con gzip. Mantén los paquetes por debajo de unas pocas decenas de GB si necesitas volver a ejecutarlos parcialmente de forma sencilla.
Puedes copiar remote→remote sin tener que ir a la instancia:
rclone copy awsa:bucketa/prefijo GSB:bucketb/prefix --progress --transfers 32 --checkers 16
Funciona en todos los proveedores si ambos controles remotos están configurados.
--límite de ancho de banda 100 M para limitar el ancho de banda si compartes un enlace.--reintentos 8 --reintentos de bajo nivel 20 para caminos escamosos.--tiempo de espera 2 m --contimeout 10 s para ajustar los puntos finales lentos.--suma de comprobación pide a rclone que use hashes cuando el control remoto los admite.Registra el comando exacto en tu tarjeta de carrera.
Para SSH en LAN o en una WAN bien conectada, rsync es genial:
rsync -avHP --delete --partial --partial-dir=.rsync-partial\
/data/results user @host: /srv/Results/Projecta
--parcial dejemos que los currículums continúen. ¿Sigues escribiendo un Manifiesto SHA‑256 y verifique.
transferencias:
herramienta: «rclone 1.xx»
fuente:
tipo: «local | s3 | sftp | gcs | azur | minio»
URL: «<path or remote:bucket/prefix>»
destino:
tipo: «local | s3 | sftp | gcs | azur | minio»
URL: «<path or remote:bucket/prefix>»
comando: |
rclone copy <src><dst>--transfers 16 --checkers 8 --s3-chunk-size 64 M --progress
manifiesto:
algo: «SHA-256"
archivo: "SHA256SUMS.txt»
verificado: «sí | no»
notas: «tamaño del grupo de filas, compresión, cualquier intento o tiempo de espera»
Inicia una instancia de GPU con una plantilla preparada para CUDA (p. ej., Ubuntu 24.04 LTS/CUDA 12.6) o tu propia imagen de GROMACS. Disfrute de una facturación flexible por segundo con plantillas personalizadas y la posibilidad de iniciar, detener y reanudar las sesiones en cualquier momento. ¿No está seguro de los requisitos de FP64? Póngase en contacto con el servicio de asistencia para que le ayuden a seleccionar el perfil de hardware ideal para sus necesidades informáticas.