Data scientist
[성장배경 및 데이터 사이언스에 관심을 가지게 된 계기]
고등학생때 '엘러건트 유니버스'라는 책을 읽은적이 있습니다. 자연에 대한 과학적 관찰과 탐구과정, 그리고 거기로부터 도출된 이론들의 명료한 논리에 깊게 매료되었습니다. 그때부터 저도 그렇게 다양한 현상을 관찰하고 흥미로운 문제를 만들어 논리적인 해답을 제시할 수 있는 과학자가 되는것을 꿈꾸었습니다. 이를 위해 주어진 문제에 대해 다양한 방향으로 생각해보고자 노력하고 논리적으로 답을 내는 과정 자체를 즐겨하게 되었습니다.
이에 더 나아가 문제해결능력을 발전시키기 위하여, 물리학과를 선택하여 대학 진학을 하였습니다. 물리학은 다양한 자연현상을 관찰하고 거기에 대한 논리적 이론을 제시하는 과정이라, 제가 꿈꾸었던 방향과 잘 맞을것이라 생각했습니다. 저는 학부과정 동안 특히 주어진 문제에 대하여 최대한 다양한 방향으로 고민을 하도록 노력하였습니다. 이를 통해 문제에 대한 다양한 접근법과 그 해결 방법을 만드는 법을 배울 수 있었습니다. 덕분에 현상을 관찰하고 그것에 대한 흥미로운 문제를 만들어 해결하는 능력을 길렀습니다.
학부과정중 복잡계 네트워크 과학에 대하여 큰 관심을 가지게 되었습니다. 복잡계 네트워크 과학은 실제 사회에서 일어나는 현상을 그래프로 만들어 이를 물리학적 관점에서 해석하고 그에 대해 이해할 수 있는 이론을 제시합니다. 이 과정을 통해 사회에 일어나는 현상들에 대해 깊은 이해를 얻을 수 있을것이라 생각하였습니다. 따라서 복잡계 네트워크 연구실을 선택하여 석사과정으로 진학했습니다. 석사과정에서는 실제 사회에 존재하는 현상을 컴퓨터를 사용해 모델링하고 이를 시뮬레이션 하여 계산하는 연굴를 진행했습니다. 이 과정중에 그동안 길러왔던 논리적 사고능력은 큰 도움이 되었습니다. 이를 통하여 SCI급 국제 학술지에 논문 2편을 게재하였으며, 현재 추가로 1편이 심사중에 있습니다.
연구를 하는 동안 실제 데이터를 분석한 다양한 사례를 접하게 되었습니다. 실제 사회에서 나온 데이터들 사이의 관계를 명료하게 설명해주는 내용들이었는데, 이렇게 데이터 사이언스를 통해 세상의 법칙을 찾아나가는 과정이 미래를 더 좋은 방향으로 이끌어 나가는데 도움을 줄 것이라고 확신을 할 수 있었습니다. 이를 통해 데이터 사이언스에 대한 관심을 가지게 되었습니다.
[데이터 사이언스 관련 경험 및 노력]
제 석사 연구내용은 SNS에 존재하는 사용자와 사용자 사이의 네트워크와 그를 통해 이동하는 의견들을 컴퓨터를 활용하여 모델링하고 시뮬레이션 하는것입니다. 시뮬레이션은 C언어를 사용하여 작성하고 연구실에서 관리하는 cpu 200개 규모의 클러스터를 통하여 실행했습니다. 이를 통해 현상을 해석하기 위한 모델링 과정과 병렬연산에 대해 배울 수 있엇습니다. 또한 이 클러스터의 유지 보수를 2년동안 담당하였는데, 이를 통하여 리눅스 클러스터를 유지보수하는 방법에 대하여 배웠습니다. 시뮬레이션을 진행한 결과는 python을 사용하여 정리하였으며 이를 통해 기본적인 python의 사용법을 익혔습니다.
연구실에서 진행한 연구내용 외에도 학과의 친구들과 스터디 그룹을 만들어 컴퓨터 프로그래밍과 딥 러닝에 관련하여 공부를 진행하였습니다. 이 스터디 그룹에서는 주로 리눅스 시스템 관리와 딥러닝의 기본적인 구조와 계산에 대한 공부를 하였습니다. 이 그룹을 통해 중소기업청에서 진행하는 이공계 창업 꿈나무 과제를 수주하여 핵심 개발자로 참여하여 성공적으로 수행하였습니다.
졸업한 뒤에는, 데이터 사이언스에 대하여 좀 더 전문적이고 체계적인 지식을 습득하기 위하여 패스트 캠퍼스의 데이터 사이언스 스쿨을 수료하였습니다. 석사과정동안 데이터를 관리하고 정리하는 과정을 진행해보기는 하였지만, 필요한 부분만 그때 그때 공부해서 사용하였고 데이터 사이언스 전반에 대한 전문적인 지식은 부족하다는 판단에 수강을 하게 되었습니다. 이 과정을 통해 데이터 사이언스 전반에 대한 체계적인 공부를 할 수 있었습니다. 논문을 쓰는 동안 툴을 통해서만 사용했던 회귀분석에 대하여 공부를 하고 이를 사용해 프로젝트를 진행해 보았습니다. 그리고 분류문제나 클러스터링 문제를 해결하기 위한 다양한 모형에 대한 학습을 하였습니다. 딥러닝에 관하여 배우고 그 이후 프로젝트를 진행하는 과정에서 CNN과 RNN을 설계해 직접 적용해보는 과정을 거쳤습니다. 이를 통해 데이터 과학자로서 성장하기 위한 탄탄한 발판을 만들었습니다.
[데이터 사이언스에 관련해 하고싶은 일과 발전해나가고자 하는 방향]
과학이 발전하면서 인간은 많은 부분의 단순 노동에서 해방되었습니다. 하지만 세상에는 여전히 사람이 개입하지 않으면 해결이 불가능해보이는 영역이 존재합니다. 운전이나, 전략구성, 번역 등등.. 하지만 최근 데이터 과학의 성립과 발전을 통해 이런 분야에 존재하는 장벽에 대한 극복이 시도되고 있습니다. 저는 이런 도전에 대해 큰 관심을 가지고 있습니다. 데이터과학을 통해 세상의 다양한 분야에서 사람들의 안전과 편의성을 증대시킬 다양한 일을 할 수 있을것이라 기대하고 있습니다.
학부를 다니는 동안 다양한 현상에 대한 관찰을 통해 문제를 정의하고 그에 대한 해답을 구하는 방법을 연습하였습니다. 석사과정동안 진행한 연구를 통해서 현상에대한 문제를 정의하고 이를 분석해 사회 현상에 대한 이론을 만들었습니다. 이를 통해 현상에 대한 모델링 과정과 데이터 분석에 대하여 다양한 경험을 하였습니다. 이를 실제 업무에서 데이터 분석과정과 접목 시킨다면 어떤 상황에서도 주어진 문제를 잘 해결할 수 있을 것이라 생각하고 있습니다.
컴퓨팅 파워의 발전을 통해 인공지능은 빠른속도로 발전하고 있습니다. 특히 딥러닝을 활용해 만들어진 인공지능이 사회에 큰 변화를 가져다줄것이라고 생각하고 있습니다. 저는 딥러닝 분야에 대한 전문가가 되고자 합니다. 다양한 분야에 대한 딥러닝 기법 적용을 통해 발전할 수 있을것이라 기대하고 있습니다. 우선 딥러닝을 사용해 성능좋은 동영상 분석모델을 만드는것을 목표로 하고 있습니다. 석사과정동안 배운 수학적 기반과 패스트캠퍼스를 통해 배운 데이터과학 그리고 항상 기르고자 노력했던 논리적 사고가 이에 큰 도움이 될것이라 생각하고 있습니다
Kaggle의 유튜브 동영상 분석 경쟁을 진행하였습니다.
구글에서 전처리 한 데이터를 이용, 각 동영상에 적합한 태그를 고르는 모델을 작성하는 프로젝트입니다.
keras와 tensorflow를 이용하여 딥러닝 모형을 만들어 진행을 하였습니다. 계산은 제 개인 컴퓨터를 통해 진행을 하였으며, MLP, LSTM, CNN등을 활용해 만든 모델을 최종적으로 사용 하였습니다.
결과는 Global Average Precision 이 약 0.79정도로 나왔으며 전체 650명중 약 160위정도를 기록하였습니다
패스트캠퍼스 데이터 사이언스 스쿨에서 진행한 내용입니다.
영화의 기본적인 정보를 이용, 영화의 제작시점에서 영화의 매출을 예측하는 모델을 만드는것을 목표로 하였습니다.
데이터는 boxoffice mojo, daum movie, naver movie등에서 python (beautiful soup)을 사용하여 직접 크롤링 하였습니다. 총 1000여편의 영화를 대상으로 분석을 진행하였으며 사용한 정보는 배우, 감독, 프랜차이즈, 제작비, 장르, 개봉계절, 등급, 상영시간등입니다.
이렇게 정리한 정보를 다양한 전처리과정을 통한 뒤 파이썬의 statsmodels를 사용하여 선형회귀분석 하였습니다.
다양한 복잡계 네트워크에 정보가 흩어져 있을때, 데이터를 찾는 전략에 대한 분석을 한 연구입니다. 결과적으로 SCI급 저널에 논문을 게제하는 성과를 얻었습니다.
다양한 종류의 복잡계 네트워크를 구현하고, 그 구현된 네트워크 위를 돌아다니는 walker를 통해 탐색 전략에 대한 연구를 진행했습니다. 역시 시뮬레이션 작성은 C언어와 openMPI를 통해 하였으며, cpu 80대 규모의 클러스터를 통해 진행했습니다. 시뮬레이션 후의 결과는 python코드를 사용하여 정리하였습니다.
SNS등에서 사용자들이 관심을 가지는 Meme의 분포가 퍼져나가는 모형을 제안하고 그에 관한 시뮬레이션을 통해 논문을 작성하였습니다. 석사과정에 들어가서 처음으로 진행한 연구 프로젝트였습니다. 결과적으로 SCI급의 좋은 저널에 논문을 게제하는 결과를 얻었습니다.
시뮬레이션은 cpu 80여대로 만들어진 클러스터에서 진행을 했습니다. C언어와 openMPI 기반으로 시뮬레이션 코드를 작성하고 시뮬레이션 된 결과는 Python을 이용하여 분석하였습니다. 데이터 분석과 시뮬레이션은 외부 라이브러리를 사용하지 않고 직접 구현하여 진행을 했습니다.
연결된 Behance 계정이 없습니다.
연결된 Dribbble 계정이 없습니다.
연결된 GitHub 계정이 없습니다.
연결된 Bitbucket 계정이 없습니다.