Cliente de referencia CVMFS

Descripción del componente

CVMFS (CERN Virtual Machine File System) es un sistema de archivos (file system) especializado para entornos informáticos distribuidos a gran escala.

Este componente puede contener datos de múltiples naturalezas y orígenes. Para el entorno de IMPaCT-Data utilizaremos el modelo de Galaxy que contiene:

  • Datos de referencia: Secuencias de genoma de cientos de especies, índices para las diferentes secuencias del genoma, índices de herramientas bioinformáticas para los genomas disponibles, etc.

  • Contenedores de herramientas: Contenedores de apptainer (singularity) de todas las herramientas incluidas en el catálogo de BioConda.

CVMFS architecture    

Documentación técnica

Documentación técnica

La implementación de modulo de CVMFS para IMPaCT-Data se realiza a partir de la instalación oficial de CVMFS (https://cvmfs.readthedocs.io/en/stable/)

Los archivos de configuración específicos para la implementación de IMPACT-Data se encuentran en (https://gitlab.bsc.es/impact-data/impd-cvmfs-config.git)

Proceso de instalación (Debian/Ubuntu)

El proceso se refiere a la instalación de un cliente simple. En caso de que varios servicios en maquinas diferences compartan una conexión CVMFS, se recomienda la instalación de un proxy para minimizar el tráfico. Esta opción se describe en Galaxy server.

wget https://cvmrepo.s3.cern.ch/cvmrepo/apt/cvmfs-release-latest_all.deb
sudo dpkg -i cvmfs-release-latest_all.deb
rm -f cvmfs-release-latest_all.deb
sudo apt-get -y update
sudo apt-get -y install cvmfs

La documentación adicional incluye alternativas para otros entornos incluyendo la opción de utilizar contenedores, aunque que no has sido analizadas.

Configurar autoFS

La manera usual de utilizar CMVFS es a traves de autofs:

cvmfs_config setup

Esto asegura que se crea /etc/auto.master.d/cvmfs.autofs, conteniendo /cvmfs /etc/auto.cvmfs

Configuración para IMPaCT-Data

Los archivos específicos de configuración para la conexión con el servidor en galaxyproject.org se encuentran en (https://gitlab.bsc.es/impact-data/impd-cvmfs-config.git)

git clone https://gitlab.bsc.es/impact-data/impd-cvmfs-config.git
cd impd-cvmfs-config
cp -r cvmfs/* /etc/cvmfs
systemctl restart autofs

Test de funcionamiento

ls  /cvmfs/data.galaxyproject.org/managed/

Expected results, similar to

align          bwa_mem_index              hisat2_index       len            picard_index  rnastar_index2
bin            gtdbtk_database_versioned  kraken2_databases  location       plant_tribes  sam_indexes
bowtie2_index  hg19                       kraken_database    ncbi_taxonomy  rnastar       seq
ls /cvmfs/singularity.galaxyproject.org

Expected results

1  2  3  a  all  b  c  d  e  f  g  h  i  j  k  l  m  n  o  p  q  r  s  t  u  v  w  x  y  z

Contacto

Para cualquier duda durante el periodo de uso y validación de los componentes de la Implementación de Referencia de IMPaCT-Data (Marzo, 2025), podéis poneros en contacto con: