Senior HPC AI Engineer

Job expired!

NVIDIA está buscando un Ingeniero HPC capacitado para formar parte de nuestro equipo de Infraestructura de Verificación de Software de Extremo a Extremo HPC/AI. Nos especializamos en la construcción de supercomputadoras y clústeres HPC aprovechando tecnologías innovadoras. Esta es una oportunidad única para contribuir a los últimos avances en inteligencia artificial y computación GPU proporcionando conocimientos sobre el diseño y ajuste de sistemas a gran escala para ejecuciones de cómputo a gran escala.

Como Ingeniero Senior HPC AI, usted:

  • Diseñará, implementará y mantendrá clústeres HPC/AI a gran escala con capacidades de monitoreo, registro y alerta.
  • Gestionará la programación de tareas/trabajos en Linux y las herramientas de orquestación.
  • Desarrollará y mantendrá pipelines de integración y entrega continua.
  • Desarrollará herramientas de automatización para el despliegue y la gestión de entornos de infraestructura a gran escala.
  • Desplegará soluciones de monitoreo para servidores, sistemas de red y almacenamiento.
  • Solucionará problemas desde el nivel de hardware hasta la capa de aplicación.
  • Servirá como recurso técnico para desarrollar y documentar mejores prácticas.
  • Soportará actividades de Investigación y Desarrollo y participará en POCs/POVs para impulsar futuras mejoras.

Estamos buscando individuos que tengan:

  • Un título en Ciencias de la Computación, Ingeniería o un campo relacionado.
  • Más de 5 años de experiencia relevante en tecnologías de soluciones HPC y AI.
  • Experiencia con herramientas de programación y orquestación de tareas como Slurm y Kubernetes (K8s).
  • Excelente conocimiento de sistemas operativos Windows y Linux (Redhat/CentOS y Ubuntu) e internos, incluyendo redes, protocolos de seguridad (TCP, DHCP, DNS) y configuraciones de firewall.
  • Experiencia práctica con múltiples soluciones de almacenamiento como Lustre, GPFS, ZFS y XFS.
  • Experiencia en programación en Python y scripting en bash.
  • Dominio de herramientas de automatización y gestión de configuración como Jenkins, Ansible, Puppet y Chef.
  • Profundo conocimiento de protocolos de red, incluyendo InfiniBand y Ethernet.
  • Experiencia con sistemas virtuales como VMware, Hyper-V, KVM o Citrix.

Formas de destacarse entre la multitud:

  • Familiaridad con plataformas de computación en la nube (por ejemplo, AWS, Azure, Google Cloud).
  • Conocimiento de arquitecturas de CPU y/o GPU.
  • Experiencia con hardware/software enfocado en GPU (DGX, CUDA).
  • Antecedentes en tejidos RDMA (InfiniBand o RoCE).
  • Dominio de Kubernetes y tecnologías de contenedores de microservicios.

En NVIDIA, la diversidad es una fuerza impulsora de nuestra innovación. Somos un empleador que ofrece igualdad de oportunidades y valoramos la diversidad en nuestra empresa. No discriminamos por raza, religión, color, origen nacional, sexo, género, expresión de género, orientación sexual, edad, estado civil, condición de veterano o discapacidad. Aseguramos adaptaciones razonables para personas con discapacidades durante el proceso de solicitud de empleo o entrevista, el desempeño de funciones esenciales del trabajo y dentro de otros beneficios y privilegios del empleo. Si necesita una adaptación, por favor contáctenos.

Nombre de la empresa: NVIDIA
Título del trabajo: Ingeniero Senior HPC AI