Senior Solutions Architect - Generative AI

Job expired!

¿Te apasiona la tecnología de punta y las innovaciones en inteligencia artificial? NVIDIA está buscando un Arquitecto de Soluciones en IA Generativa dinámico y experimentado, con experiencia especializada en el entrenamiento de Modelos de Lenguaje de Gran Escala (LLMs) e implementación de flujos de trabajo basados en Preentrenamiento, Ajuste Fino de LLMs y Generación Aumentada por Recuperación (RAG).

Como miembro clave de nuestro equipo de Soluciones de IA, desempeñarás un papel fundamental en la arquitectura y entrega de soluciones innovadoras que utilizan las poderosas tecnologías de IA generativa de NVIDIA. Este puesto requiere una comprensión profunda de los modelos de lenguaje, particularmente LLMs de código abierto, y una gran competencia en el diseño e implementación de flujos de trabajo basados en RAG.

  • Arquitectar soluciones de IA generativa de extremo a extremo, centrándose en el entrenamiento, despliegue de LLMs y flujos de trabajo RAG.
  • Colaborar estrechamente con los clientes para entender sus desafíos empresariales relacionados con el lenguaje y diseñar soluciones a medida.
  • Apoyar actividades de preventa, incluidas presentaciones técnicas y demostraciones de capacidades de LLM y RAG.
  • Trabajar en estrecha colaboración con los equipos de ingeniería de NVIDIA para proporcionar retroalimentación y contribuir a la evolución del software de IA generativa.
  • Interactuar directamente con clientes/colaboradores para entender sus requisitos y desafíos.
  • Liderar talleres y sesiones de diseño para definir y perfeccionar soluciones de IA generativa enfocadas en LLMs y flujos de trabajo RAG.
  • Liderar el entrenamiento y la optimización de Modelos de Lenguaje de Gran Escala utilizando las plataformas de hardware y software de NVIDIA.
  • Implementar estrategias para un entrenamiento eficiente y efectivo de LLMs para alcanzar el rendimiento óptimo.
  • Diseñar e implementar flujos de trabajo basados en RAG para mejorar la generación de contenido y la recuperación de información.
  • Trabajar estrechamente con los clientes para integrar flujos de trabajo RAG en sus aplicaciones y sistemas.
  • Mantenerse al tanto de los últimos desarrollos en modelos de lenguaje y tecnologías de IA generativa.
  • Proporcionar liderazgo técnico y orientación sobre las mejores prácticas para el entrenamiento de LLMs y la implementación de soluciones basadas en RAG.
  • Máster o Doctorado en Ciencias de la Computación, Inteligencia Artificial o experiencia equivalente.
  • 7-11+ años de experiencia práctica en un rol técnico de IA, con un fuerte enfoque en IA generativa y entrenamiento de Modelos de Lenguaje de Gran Escala (LLMs).
  • Historial comprobado de despliegue y optimización exitosos de modelos LLM para inferencia en entornos de producción.
  • Comprensión profunda de modelos de lenguaje de vanguardia, incluidos GPT-3, BERT o arquitecturas similares.
  • Experiencia en entrenamiento y ajuste fino de LLMs utilizando marcos populares como TensorFlow, PyTorch o Hugging Face Transformers.
  • Competencia en técnicas de despliegue y optimización de modelos para una inferencia eficiente en varias plataformas de hardware, con un enfoque en GPUs.
  • Sólido conocimiento de la arquitectura de clústeres de GPU y la capacidad de aprovechar el procesamiento paralelo para el entrenamiento acelerado y la inferencia de modelos.
  • Excelentes habilidades de comunicación y colaboración con la capacidad de articular conceptos técnicos complejos a partes interesadas tanto técnicas como no técnicas.
  • Experiencia liderando talleres, sesiones de entrenamiento y presentando soluciones técnicas a diversas audiencias.
  • Experiencia en despliegue de modelos LLM en entornos de nube (por ejemplo, AWS, Azure, GCP) e infraestructura local.
  • Capacidad comprobada para optimizar modelos LLM para velocidad de inferencia, eficiencia de memoria y utilización de recursos.
  • Familiaridad con tecnologías de contenedorización (por ejemplo, Docker) y herramientas de orquestación (por ejemplo, Kubernetes) para un despliegue de modelos escalable y eficiente.
  • Comprensión profunda de la arquitectura de clústeres de GPU, comput