Senior HPC AI Engineer

AI Engineer
Other places
06/16/2024
-

Job expired!

NVIDIA está buscando un Ingeniero HPC capacitado para formar parte de nuestro equipo de Infraestructura de Verificación de Software de Extremo a Extremo HPC/AI. Nos especializamos en la construcción de supercomputadoras y clústeres HPC aprovechando tecnologías innovadoras. Esta es una oportunidad única para contribuir a los últimos avances en inteligencia artificial y computación GPU proporcionando conocimientos sobre el diseño y ajuste de sistemas a gran escala para ejecuciones de cómputo a gran escala.

Como Ingeniero Senior HPC AI, usted:

Diseñará, implementará y mantendrá clústeres HPC/AI a gran escala con capacidades de monitoreo, registro y alerta.
Gestionará la programación de tareas/trabajos en Linux y las herramientas de orquestación.
Desarrollará y mantendrá pipelines de integración y entrega continua.
Desarrollará herramientas de automatización para el despliegue y la gestión de entornos de infraestructura a gran escala.
Desplegará soluciones de monitoreo para servidores, sistemas de red y almacenamiento.
Solucionará problemas desde el nivel de hardware hasta la capa de aplicación.
Servirá como recurso técnico para desarrollar y documentar mejores prácticas.
Soportará actividades de Investigación y Desarrollo y participará en POCs/POVs para impulsar futuras mejoras.

Estamos buscando individuos que tengan:

Un título en Ciencias de la Computación, Ingeniería o un campo relacionado.
Más de 5 años de experiencia relevante en tecnologías de soluciones HPC y AI.
Experiencia con herramientas de programación y orquestación de tareas como Slurm y Kubernetes (K8s).
Excelente conocimiento de sistemas operativos Windows y Linux (Redhat/CentOS y Ubuntu) e internos, incluyendo redes, protocolos de seguridad (TCP, DHCP, DNS) y configuraciones de firewall.
Experiencia práctica con múltiples soluciones de almacenamiento como Lustre, GPFS, ZFS y XFS.
Experiencia en programación en Python y scripting en bash.
Dominio de herramientas de automatización y gestión de configuración como Jenkins, Ansible, Puppet y Chef.
Profundo conocimiento de protocolos de red, incluyendo InfiniBand y Ethernet.
Experiencia con sistemas virtuales como VMware, Hyper-V, KVM o Citrix.

Formas de destacarse entre la multitud:

Familiaridad con plataformas de computación en la nube (por ejemplo, AWS, Azure, Google Cloud).
Conocimiento de arquitecturas de CPU y/o GPU.
Experiencia con hardware/software enfocado en GPU (DGX, CUDA).
Antecedentes en tejidos RDMA (InfiniBand o RoCE).
Dominio de Kubernetes y tecnologías de contenedores de microservicios.

En NVIDIA, la diversidad es una fuerza impulsora de nuestra innovación. Somos un empleador que ofrece igualdad de oportunidades y valoramos la diversidad en nuestra empresa. No discriminamos por raza, religión, color, origen nacional, sexo, género, expresión de género, orientación sexual, edad, estado civil, condición de veterano o discapacidad. Aseguramos adaptaciones razonables para personas con discapacidades durante el proceso de solicitud de empleo o entrevista, el desempeño de funciones esenciales del trabajo y dentro de otros beneficios y privilegios del empleo. Si necesita una adaptación, por favor contáctenos.

Nombre de la empresa: NVIDIA
Título del trabajo: Ingeniero Senior HPC AI