¿Quiénes somos? En APIUX, nos identificamos como una fábrica de talento con una fuerte orientación de negocio, donde continuamente brindamos espacios a las nuevas generaciones para mostrar y desarrollar ideas, conocimientos y exponer modelos de negocio innovadores enfocados en cubrir siempre, con una propuesta de valor, las necesidades de nuestros clientes. ¿Qué hacemos? Posicionamos al mejor talento, dándole un enfoque estratégico y nos esforzamos por entender a fondo la cultura y valores de cada uno de nuestros clientes para así hacer el match perfecto entre cliente y talento. Además, nos aseguramos de brindar una experiencia de candidato y Employee Experience ejemplar para nuestros futuros Happeners. ¿Quiénes somos? En APIUX, nos identificamos como una fábrica de talento con una fuerte orientación de negocio, donde continuamente brindamos espacios a las nuevas generaciones para mostrar y desarrollar ideas, conocimientos y exponer modelos de negocio innovadores enfocados en cubrir siempre, con una propuesta de valor, las necesidades de nuestros clientes. ¿Qué hacemos? Posicionamos al mejor talento, dándole un enfoque estratégico y nos esforzamos por entender a fondo la cultura y valores de cada uno de nuestros clientes para así hacer el match perfecto entre cliente y talento. Además, nos aseguramos de brindar una experiencia de candidato y Employee Experience ejemplar para nuestros futuros Happeners. Ser Happeners significa pertenecer a una familia con principios integrales, donde el espíritu ágil, colaborativo, innovador y deportivo son el combustible que inyectamos en nuestro corazón día a día para hacer las cosas cada vez mejor. Objetivo del cargo: Diseñar, implementar y optimizar pipelines escalables para procesamiento de documentos, incluyendo OCR, limpieza y segmentación de texto, extracción básica de entidades y relaciones, y generación automatizada de muestras de preguntas y respuestas (Q&A) orientadas a sistemas de recuperación aumentada por generación (RAFT). ¿Cuáles serán tus funciones? Responsabilidades: Pipelines OCR con Tesseract o PaddleOCR: preprocesamiento de imagen, configuración PSM/OEM. Limpieza y segmentación de texto: corrección de artefactos, normalización, división en secciones. Extracción inicial de entidades/relaciones con prompting y LlamaIndex. Etiquetado de RAFT: redacción de preguntas, selección de documentos oráculo y CoT con citas. Ejecución de experimentos de fine-tuning bajo supervisión. ¿Qué esperamos de ti para hacer un buen match? Requisitos: 0–3 años en ciencia de datos o NLP. Experiencia con Python, pandas y OCR en Python. Conocimientos básicos de Transformers y LLMs. ¿Qué te haría sumar puntitos adicionales con nosotros? Habilidades deseables: Familiaridad con PyTorch y Hugging Face. Conocimiento de control de versiones (Git) y MLflow para tracking. Modalidad de trabajo: Remoto. Algunos de nuestros beneficios: Día libre en tu cumpleaños Día libre por mudanza Bonos por nacimiento, matrimonio y referidos Alianzas con Open English, Coderhouse, Self Development y Y-Share Afiliación a caja de compensación #J-18808-Ljbffr