마감 60일 전
[하이퍼엑셀] Distributed System Engineer 신입/경력 채용
[하이퍼엑셀] Distributed System Engineer 신입/경력 채용
[주요 업무]
- 네트워크 토폴로지 및 LPU 아키텍쳐를 고려한 Collective Communication 알고리즘 (e.g., All-reduce, Broadcast, All-gather, …) 설계, 개발 및 유지보수
- 딥러닝 프레임워크 (e.g., PyTorch Distributed) 에 통합 및 동작 확인
- 프로파일링 도구와 하드웨어 통찰력을 바탕으로 성능 병목 현상 식별, 분석 및 해결
- 벤치마크를 통한 성능 평가 및 개선
[자격 요건]
- CCL 에 대한 깊은 이해 및 숙련도
- 분산 시스템 개념, 동시성 및 동기화에 대한 이해
- C/C++ 에 대한 이해 및 숙련도
[우대 사항]
- NVIDIA NCCL, Open MPI 와 같은 라이브러리에 대한 실제 경험
- 딥러닝 프레임워크의 분산 패러다임(e.g., torch.distributed, tf.distribute)에 대한 이해
- 네트워크, PCIe 드라이버 또는 펌웨어 지식