¿Te apasiona la tecnología de punta y las innovaciones en inteligencia artificial? NVIDIA está buscando un Arquitecto de Soluciones en IA Generativa dinámico y experimentado, con experiencia especializada en el entrenamiento de Modelos de Lenguaje de Gran Escala (LLMs) e implementación de flujos de trabajo basados en Preentrenamiento, Ajuste Fino de LLMs y Generación Aumentada por Recuperación (RAG).
Como miembro clave de nuestro equipo de Soluciones de IA, desempeñarás un papel fundamental en la arquitectura y entrega de soluciones innovadoras que utilizan las poderosas tecnologías de IA generativa de NVIDIA. Este puesto requiere una comprensión profunda de los modelos de lenguaje, particularmente LLMs de código abierto, y una gran competencia en el diseño e implementación de flujos de trabajo basados en RAG.
- Arquitectar soluciones de IA generativa de extremo a extremo, centrándose en el entrenamiento, despliegue de LLMs y flujos de trabajo RAG.
- Colaborar estrechamente con los clientes para entender sus desafíos empresariales relacionados con el lenguaje y diseñar soluciones a medida.
- Apoyar actividades de preventa, incluidas presentaciones técnicas y demostraciones de capacidades de LLM y RAG.
- Trabajar en estrecha colaboración con los equipos de ingeniería de NVIDIA para proporcionar retroalimentación y contribuir a la evolución del software de IA generativa.
- Interactuar directamente con clientes/colaboradores para entender sus requisitos y desafíos.
- Liderar talleres y sesiones de diseño para definir y perfeccionar soluciones de IA generativa enfocadas en LLMs y flujos de trabajo RAG.
- Liderar el entrenamiento y la optimización de Modelos de Lenguaje de Gran Escala utilizando las plataformas de hardware y software de NVIDIA.
- Implementar estrategias para un entrenamiento eficiente y efectivo de LLMs para alcanzar el rendimiento óptimo.
- Diseñar e implementar flujos de trabajo basados en RAG para mejorar la generación de contenido y la recuperación de información.
- Trabajar estrechamente con los clientes para integrar flujos de trabajo RAG en sus aplicaciones y sistemas.
- Mantenerse al tanto de los últimos desarrollos en modelos de lenguaje y tecnologías de IA generativa.
- Proporcionar liderazgo técnico y orientación sobre las mejores prácticas para el entrenamiento de LLMs y la implementación de soluciones basadas en RAG.
- Máster o Doctorado en Ciencias de la Computación, Inteligencia Artificial o experiencia equivalente.
- 7-11+ años de experiencia práctica en un rol técnico de IA, con un fuerte enfoque en IA generativa y entrenamiento de Modelos de Lenguaje de Gran Escala (LLMs).
- Historial comprobado de despliegue y optimización exitosos de modelos LLM para inferencia en entornos de producción.
- Comprensión profunda de modelos de lenguaje de vanguardia, incluidos GPT-3, BERT o arquitecturas similares.
- Experiencia en entrenamiento y ajuste fino de LLMs utilizando marcos populares como TensorFlow, PyTorch o Hugging Face Transformers.
- Competencia en técnicas de despliegue y optimización de modelos para una inferencia eficiente en varias plataformas de hardware, con un enfoque en GPUs.
- Sólido conocimiento de la arquitectura de clústeres de GPU y la capacidad de aprovechar el procesamiento paralelo para el entrenamiento acelerado y la inferencia de modelos.
- Excelentes habilidades de comunicación y colaboración con la capacidad de articular conceptos técnicos complejos a partes interesadas tanto técnicas como no técnicas.
- Experiencia liderando talleres, sesiones de entrenamiento y presentando soluciones técnicas a diversas audiencias.
- Experiencia en despliegue de modelos LLM en entornos de nube (por ejemplo, AWS, Azure, GCP) e infraestructura local.
- Capacidad comprobada para optimizar modelos LLM para velocidad de inferencia, eficiencia de memoria y utilización de recursos.
- Familiaridad con tecnologías de contenedorización (por ejemplo, Docker) y herramientas de orquestación (por ejemplo, Kubernetes) para un despliegue de modelos escalable y eficiente.
- Comprensión profunda de la arquitectura de clústeres de GPU, comput