엠로 AI 모델 연구 및 개발 자기소개서
엠로는 국내 공급망 관리(SCM) 소프트웨어 시장의 선도 기업으로서, 최근 AI 기술을 활용한
구매 자동화 및 최적화 솔루션 개발에 주력하고 있습니다. Data Scientist는 대규모 구매 데
이터와 텍스트 데이터를 분석하여 품목 분류 자동화, 수요 예측, 가격 추정 모델을 구축하는
역할을 수행합니다.
데이터 전문성: SCM 특유의 비정형 텍스트(품목명, 규격) 처리 역량과 시계열 분석 능
력을 강조하십시오.
실제 가치 창출: 단순한 정확도 수치보다는 "비용 절감 %"나 "업무 시간 단축"과 같은
구체적인 비즈니스 임팩트를 수치화하여 제시하십시오.
최신 기술 접목: LLM(Large Language Model) 기반의 정보 추출이나 RAG 기술을
실무에 어떻게 적용할 수 있을지에 대한 통찰력을 보여주는 것이 유리합니다.
목차
1. 엠로의 AI 모델 연구 및 개발 직무에 지원한 동기와 본인이 해당 직무에 적합하다고 판단하는
근거를 기술해 주십시오.
2. 복잡한 데이터를 분석하여 문제를 해결했던 경험을 구체적인 기술 스택 및 수치와 함께 설명해
주십시오.
3. AI 모델의 성능을 개선하기 위해 시도했던 혁신적인 방법론과 그 결과에 대해 기술해 주십시오.
4. 협업 과정에서 발생한 기술적 견해 차이를 논리적으로 극복하고 공동의 목표를 달성한 사례를
서술해 주십시오.
5. 입사 후 엠로의 AI 솔루션 고도화를 위해 기여하고자 하는 구체적인 로드맵과 포부를 밝혀 주십
시오.
1. 엠로의 AI 모델 연구 및 개발 직무에 지원한 동기와 본인이 해당 직무에 적합하다
고 판단하는 근거를 기술해 주십시오.
"전사적 자원 관리의 핵심인 데이터를 가치 있는 지능으로 전환하는 공급망 혁신의 설계자"
글로벌 공급망의 불확실성이 가중되는 현대 산업군에서 데이터 기반의 의사결정은 선택이 아닌 생
존의 필수 요소입니다. 저는 국내 구매 SCM 시장에서 독보적인 기술력을 보유한 엠로가 추진하는
AI 기반 구매 자동화 비전에 깊이 공감하여 지원하게 되었습니다. 특히 수만 개의 품목을 실시간으
로 분류하고 최적의 가격을 예측하는 기술은 기업의 영업이익률을 직접적으로 개선할 수 있는 가
장 파괴적인 데이터 사이언스 영역이라고 확신합니다.
저는 대학원 과정 및 연구 프로젝트를 통해 약 2,500,000건 이상의 비정형 텍스트 데이터를 전처
리하고 이를 기반으로 한 텍스트 임베딩 최적화 모델을 설계한 경험이 있습니다. 기존의 단순 키워
드 매칭 방식에서 벗어나 BERT 계열의 모델을 파인튜닝하여 품목 분류 정확도를 기존 74%에서
92.5%까지 끌어올렸던 성과는 엠로의 지능형 구매 솔루션에 즉각적으로 기여할 수 있는 핵심 자
산입니다.
"데이터의 패턴을 읽는 것을 넘어, 기업의 수익 구조를 이해하는 비즈니스 지향적 AI 연구를
지향합니다."
단순히 알고리즘의 SOTA(State-of-the-Art) 달성에 매몰되지 않고, 실제 현업에서 발생하는 노이
즈 데이터와 라벨링 오류를 극복하기 위한 Active Learning 기법을 도입하여 데이터 효율성을
40% 이상 개선했습니다. 이러한 경험은 엠로가 마주하는 실무 중심의 데이터 환경에서 가장 유연
하고 강력한 해결책을 제시하는 밑거름이 될 것입니다.
또한 기술적으로는 PyTorch와 HuggingFace 라이브러리에 능숙하며, MLfow를 활용한 모델 관
리 체계를 구축해 본 경험이 있습니다. 엠로의 AI 연구 조직에서 저는 기술적 탁월함과 비즈니스 통
찰력을 결합하여, 고객사가 경험하는 모든 구매 프로세스에 지능화의 가치를 더하는 핵심 인재로
거듭나겠습니다.
2. 복잡한 데이터를 분석하여 문제를 해결했던 경험을 구체적인 기술 스택 및 수치와
함께 설명해 주십시오.
"다중 소스 데이터의 상관분석을 통한 수요 예측 오차율 15% 개선 프로젝트"
과거 제조 산업군 데이터 분석 프로젝트에서 제품별 불규칙한 수요 변동성으로 인해 재고 관리 비
용이 매달 약 2억 원씩 발생하는 문제를 해결한 적이 있습니다. 당시 문제는 데이터의 계절성과 외
부 변수(원자재 가격 지수, 물류 인덱스)가 모델에 적절히 반영되지 않았다는 점이었습니다. 저는
이를 해결하기 위해 단순 시계열 모델에서 탈피하여 GNN(Graph Neural Network)과
Transformer 기반의 하이브리드 아키텍처를 설계했습니다.
기술 스택으로는 Python 3.9 환경에서 Pandas와 NumPy를 통한 대규모 시계열 정제 작업을 수
행하였고, Scikit-learn의 Feature Selection 기법을 활용하여 150여 개의 변수 중 상관성이 높은
12개의 핵심 피처를 추출했습니다. 특히 원천 데이터의 결측치가 22%에 달하는 상황을 극복하기
위해 MICE(Multivariate Imputation by Chained Equations) 기법을 적용하여 데이터 무결성
을 확보했습니다.
"기술적 한계를 극복하는 것은 모델의 복잡함이 아니라, 데이터 본질에 대한 철저한 탐구와 전
처리에서 시작됩니다."
최종 모델 구축 결과, 기존 통계 모델 대비 RMSE(Root Mean Square Error) 수치를 0.45에서
0.28로 대폭 낮추었으며, 최종적인 수요 예측 오차율(MAPE)은 기존 28%에서 13% 수준으로
15%p의 비약적인 정확도 향상을 달성했습니다. 이는 결과적으로 과잉 재고 보유율을 연간
18.5% 감소시켜 기업의 유동성을 확보하는 데 직접적인 기여를 했습니다. 이 과정에서 저는 기술
스택의 깊이 있는 활용 능력은 물론, 숫자로 증명되는 결과가 조직에 미치는 파급력을 명확히 경험
했습니다.
3. AI 모델의 성능을 개선하기 위해 시도했던 혁신적인 방법론과 그 결과에 대해 기
술해 주십시오.
"데이터 불균형 해결을 위한 Synthetic Data Generation 및 앙상블 전략의 최적화"
AI 모델링에서 가장 큰 장애물 중 하나는 특정 클래스에 데이터가 쏠려 있는 불균형 문제입니다. 이
상 탐지 프로젝트를 진행하며 정상 데이터 대비 이상 데이터의 비율이 1:1000에 불과한 극심한 데
이터 희소성 문제를 해결해야 했습니다. 저는 일반적인 오버샘플링(SMOTE) 대신, 고차원 데이터
의 분포를 학습하는 VAE(Variational Autoencoder)를 활용한 합성 데이터 생성 기법을 도입했
습니다.
생성된 합성 데이터를 학습 데이터셋에 주입함으로써 모델이 이상 징후에 대한 고유 특성을 보다
세밀하게 학습할 수 있도록 유도했습니다. 또한, 단일 모델의 한계를 극복하기 위해 XGBoost,
LightGBM, 그리고 Deep Learning 기반의 TabNet을 결합한 스태킹(Stacking) 앙상블 모델을
구성했습니다. 각 모델의 예측 확률값을 메타 모델인 Logistic Regression의 입력값으로 사용하
여 최종 판단의 신뢰도를 극대화했습니다.

분야