Senior Solutions Architect - Generative AI

Other
Other places
06/23/2024
-

Job expired!

¿Te apasiona la tecnología de punta y las innovaciones en inteligencia artificial? NVIDIA está buscando un Arquitecto de Soluciones en IA Generativa dinámico y experimentado, con experiencia especializada en el entrenamiento de Modelos de Lenguaje de Gran Escala (LLMs) e implementación de flujos de trabajo basados en Preentrenamiento, Ajuste Fino de LLMs y Generación Aumentada por Recuperación (RAG).

Como miembro clave de nuestro equipo de Soluciones de IA, desempeñarás un papel fundamental en la arquitectura y entrega de soluciones innovadoras que utilizan las poderosas tecnologías de IA generativa de NVIDIA. Este puesto requiere una comprensión profunda de los modelos de lenguaje, particularmente LLMs de código abierto, y una gran competencia en el diseño e implementación de flujos de trabajo basados en RAG.

Arquitectar soluciones de IA generativa de extremo a extremo, centrándose en el entrenamiento, despliegue de LLMs y flujos de trabajo RAG.
Colaborar estrechamente con los clientes para entender sus desafíos empresariales relacionados con el lenguaje y diseñar soluciones a medida.
Apoyar actividades de preventa, incluidas presentaciones técnicas y demostraciones de capacidades de LLM y RAG.
Trabajar en estrecha colaboración con los equipos de ingeniería de NVIDIA para proporcionar retroalimentación y contribuir a la evolución del software de IA generativa.
Interactuar directamente con clientes/colaboradores para entender sus requisitos y desafíos.
Liderar talleres y sesiones de diseño para definir y perfeccionar soluciones de IA generativa enfocadas en LLMs y flujos de trabajo RAG.
Liderar el entrenamiento y la optimización de Modelos de Lenguaje de Gran Escala utilizando las plataformas de hardware y software de NVIDIA.
Implementar estrategias para un entrenamiento eficiente y efectivo de LLMs para alcanzar el rendimiento óptimo.
Diseñar e implementar flujos de trabajo basados en RAG para mejorar la generación de contenido y la recuperación de información.
Trabajar estrechamente con los clientes para integrar flujos de trabajo RAG en sus aplicaciones y sistemas.
Mantenerse al tanto de los últimos desarrollos en modelos de lenguaje y tecnologías de IA generativa.
Proporcionar liderazgo técnico y orientación sobre las mejores prácticas para el entrenamiento de LLMs y la implementación de soluciones basadas en RAG.

Máster o Doctorado en Ciencias de la Computación, Inteligencia Artificial o experiencia equivalente.
7-11+ años de experiencia práctica en un rol técnico de IA, con un fuerte enfoque en IA generativa y entrenamiento de Modelos de Lenguaje de Gran Escala (LLMs).
Historial comprobado de despliegue y optimización exitosos de modelos LLM para inferencia en entornos de producción.
Comprensión profunda de modelos de lenguaje de vanguardia, incluidos GPT-3, BERT o arquitecturas similares.
Experiencia en entrenamiento y ajuste fino de LLMs utilizando marcos populares como TensorFlow, PyTorch o Hugging Face Transformers.
Competencia en técnicas de despliegue y optimización de modelos para una inferencia eficiente en varias plataformas de hardware, con un enfoque en GPUs.
Sólido conocimiento de la arquitectura de clústeres de GPU y la capacidad de aprovechar el procesamiento paralelo para el entrenamiento acelerado y la inferencia de modelos.
Excelentes habilidades de comunicación y colaboración con la capacidad de articular conceptos técnicos complejos a partes interesadas tanto técnicas como no técnicas.
Experiencia liderando talleres, sesiones de entrenamiento y presentando soluciones técnicas a diversas audiencias.

Experiencia en despliegue de modelos LLM en entornos de nube (por ejemplo, AWS, Azure, GCP) e infraestructura local.
Capacidad comprobada para optimizar modelos LLM para velocidad de inferencia, eficiencia de memoria y utilización de recursos.
Familiaridad con tecnologías de contenedorización (por ejemplo, Docker) y herramientas de orquestación (por ejemplo, Kubernetes) para un despliegue de modelos escalable y eficiente.
Comprensión profunda de la arquitectura de clústeres de GPU, comput