NVIDIA está buscando un Ingeniero HPC capacitado para formar parte de nuestro equipo de Infraestructura de Verificación de Software de Extremo a Extremo HPC/AI. Nos especializamos en la construcción de supercomputadoras y clústeres HPC aprovechando tecnologías innovadoras. Esta es una oportunidad única para contribuir a los últimos avances en inteligencia artificial y computación GPU proporcionando conocimientos sobre el diseño y ajuste de sistemas a gran escala para ejecuciones de cómputo a gran escala.
Como Ingeniero Senior HPC AI, usted:
- Diseñará, implementará y mantendrá clústeres HPC/AI a gran escala con capacidades de monitoreo, registro y alerta.
- Gestionará la programación de tareas/trabajos en Linux y las herramientas de orquestación.
- Desarrollará y mantendrá pipelines de integración y entrega continua.
- Desarrollará herramientas de automatización para el despliegue y la gestión de entornos de infraestructura a gran escala.
- Desplegará soluciones de monitoreo para servidores, sistemas de red y almacenamiento.
- Solucionará problemas desde el nivel de hardware hasta la capa de aplicación.
- Servirá como recurso técnico para desarrollar y documentar mejores prácticas.
- Soportará actividades de Investigación y Desarrollo y participará en POCs/POVs para impulsar futuras mejoras.
Estamos buscando individuos que tengan:
- Un título en Ciencias de la Computación, Ingeniería o un campo relacionado.
- Más de 5 años de experiencia relevante en tecnologías de soluciones HPC y AI.
- Experiencia con herramientas de programación y orquestación de tareas como Slurm y Kubernetes (K8s).
- Excelente conocimiento de sistemas operativos Windows y Linux (Redhat/CentOS y Ubuntu) e internos, incluyendo redes, protocolos de seguridad (TCP, DHCP, DNS) y configuraciones de firewall.
- Experiencia práctica con múltiples soluciones de almacenamiento como Lustre, GPFS, ZFS y XFS.
- Experiencia en programación en Python y scripting en bash.
- Dominio de herramientas de automatización y gestión de configuración como Jenkins, Ansible, Puppet y Chef.
- Profundo conocimiento de protocolos de red, incluyendo InfiniBand y Ethernet.
- Experiencia con sistemas virtuales como VMware, Hyper-V, KVM o Citrix.
Formas de destacarse entre la multitud:
- Familiaridad con plataformas de computación en la nube (por ejemplo, AWS, Azure, Google Cloud).
- Conocimiento de arquitecturas de CPU y/o GPU.
- Experiencia con hardware/software enfocado en GPU (DGX, CUDA).
- Antecedentes en tejidos RDMA (InfiniBand o RoCE).
- Dominio de Kubernetes y tecnologías de contenedores de microservicios.
En NVIDIA, la diversidad es una fuerza impulsora de nuestra innovación. Somos un empleador que ofrece igualdad de oportunidades y valoramos la diversidad en nuestra empresa. No discriminamos por raza, religión, color, origen nacional, sexo, género, expresión de género, orientación sexual, edad, estado civil, condición de veterano o discapacidad. Aseguramos adaptaciones razonables para personas con discapacidades durante el proceso de solicitud de empleo o entrevista, el desempeño de funciones esenciales del trabajo y dentro de otros beneficios y privilegios del empleo. Si necesita una adaptación, por favor contáctenos.
Nombre de la empresa: NVIDIA
Título del trabajo: Ingeniero Senior HPC AI