데이터 과학자, 딥러닝 전문가 연봉 및 정보
요즘 뭐 다들 어디에나 AI를 적용하고 있는 것은 다들 아실 겁니다. 몇 년 전부터 딥러닝이 수면 위로 다시 떠오르게 되면서 많은 논문들이 쏟아져 나오고 있으며 기업들에서도 이를 적용하려고 많이 시도 중입니다. 저는 사실 딥러닝이나 데이터 사이언스 쪽의 전문가가 아니었지만 현재 실무자로서 이 길을 걷고 있습니다. 그렇기 때문에 실제 현황에 대해서 몇 가지 정보를 알려드릴 수 있을 것 같습니다. 다만, 너무 일반화해서 받아들이지는 마시고 그냥 저 한 명의 개인적인 의견일 뿐이라는 것을 알아주셨으면 좋겠습니다. 조사에 따르면 데이터 과학자는 미국에서 평균적으로 1억 3000만 원의 연봉을 받는 것으로 알려져 있습니다. 또 가장 유망하고 인기 있는 직업으로 떠오르고 있다고도 하죠. 이게 벌서 1년 전의 기사이기 때문에 지금은 더 높아졌거나 유지 중일 가능성이 큽니다. 현재 대한민국에서도 4차 산업혁명이다 뭐니 해서 많은 투자를 하는 것이 사실이고 AI 분야가 그중에서도 큰 부분을 차지하고 있습니다. 사실 빅데이터 과학자와 딥러닝 전문가는 큰 상관이 없을 수 있습니다. 그러나 딥러닝 실무를 하면서 깨닫게 된 것이 결국 딥러닝 모델 학습 시에 사용되는 데이터 또한 빅 데이터라고 생각할 수 있겠더군요. 그리고 유의미한 정보를 찾아내어 학습을 시켜야 한다는 것을 보았을 때 딥러닝 분야와 데이터 사이언스 분야는 거의 맞닿아 있다고 생각합니다. 그런데 사실 개발자가 프레임워크만 익히면 텐서 플로우, 파이 토치 등등 을 사용할 수 있는 것은 맞지만, 본인 꺼로 커스터마이징 하기에는 무리가 있는 것은 사실입니다. 수학적 지식이나 통계적 지식이 필요하고 게다가 프로그래밍 지식까지 필요하니 말이죠. 그리고 추가로 데이터를 주무를 수 있는 빅데이터 전문 처리까지 할 수 있으면 엄청 유능한 전문가로 인정을 받을 수 있겠네요. 그런데 이러한 지식을 모두 쌓는다는 것은 쉬운 것이 아니고 아주 많은 노력이 필요합니다. 논문도 하루를 기준으로 계속해서 쏟아져 나오고 새로운 알고리즘들이 계속해서 공개되고 예측률이 더 높아진 네트워크들이 잦은 간격으로 공개가 되고 있습니다. 이 분야에 들어오시려면 IT분야가 그렇듯이 끊임없이 변화하는 기술에 대해서 계속해서 자기 스스로 공부하는 것이 매우 필요합니다. 영어까지 할 줄 안다면 정말 좋겠네요. 데이터 사이언티스트의 경우 직업적으로 만족도가 높으며 장기적인 커리어로 인정을 받을 수 있다고 해서 인기가 많습니다. 연봉이 일단 1억이 넘는다고는 하는데 대한민국에서는 개발자나 이러한 엔지니어들이 박봉을 받기 때문에 대우받기가 어려울 수도 있습니다. 그러나 AI 부서를 도입한 곳은 그런 곳이 별로 없기를 바랍니다. 아직도 많은 기업들이 AI를 적용하지 않고 있지만, 또 역시 많은 기업들이 AI를 적용하는 중입니다. 딥러닝은 미래에 있어서 IT와 뗄 수 없는 관계가 될 전망이기 때문입니다. 외국적으로만 봐도 아마존이나 마이크로소프트, 구글 그리고 페이스북 등등 거대 기업들은 진작에 AI를 적용했고 데이터 전문가들과 딥러닝 전문가들을 양성하고 있습니다. 데이터를 엄청나게 오늘도 당신의 기록을 수집했을 구글은 이 분야에 있어서 최강자입니다. 텐서 플로우는 가장 많이 이용되는 라이브러리로 계속해서 업데이트되고 있습니다. 또 전문적인 자격증도 만들어서 자격증을 보유한 사람을 인정해주는 서비스도 진행 중입니다. 구글 그리고 텐서 플로우에서 직접 공식적으로 진행하는 만큼 일반적인 민간 자격증보다 취업시장에서 효력이 있을 것으로 파악됩니다. 실무에 대해 말씀드리자면, 거의 대부분의 시간을 학습 데이터를 만드는데 쏟아야 할 수도 있습니다. 사실 딥러닝 네트워크도 또한 중요하지만, 학습 시에 사용되는 데이터가 제일 중요하기 때문에 이를 만들어내는데 아주 힘든 시간을 보낼 수도 있습니다. 사실 힘든 시간은 아니지만 그래도 지루하거나 반복적인 작업으로 데이터를 생성해야 할 때가 있습니다. 물론 초기 모델을 사용해서 분류 또는 라벨링에 도움이 되도록 프로그래밍하거나 일용직을 고용해서 이러한 작업을 시킬 수도 있습니다. 하지만 가격 절감을 위해서 보통 전문가들이 데이터 생성도 하는 편입니다. 또 자신이 직접 데이터를 만들어야 모델이 어디서 과적합 되었고 성능이 좋은지를 판단할 수 있는 지표가 되기 때문에 그렇게 고집을 하는 경우도 많습니다. 산업에 따라 이러한 데이터 과학자의 역할이 달라질 수 있는데 의료기관이나 정부, 과학 등 분야에 따라서 이러한 데이터 수집 작업은 천차만별적으로 난이도가 달라질 수 있습니다. 가장 핵심은 데이터가 좋아야 좋은 딥러닝 모델이 만들어질 수 있다는 것입니다. 포토샵 등을 사용해서 일명 데이터 짜깁기를 해서 생성을 해내는 경우도 실제 있습니다. 그렇게 해서 만들어진 데이터로 학습을 시킨 것이 오히려 더 성능이 잘 나올 때도 있기도 합니다. 이것 또한 문제점 중 하나입니다. 결과가 어떻게 달라질지는 컴퓨터의 연산처리에 의한 학습에도 있기 때문에 데이터가 무조건 좋다고 해서 모든 네트워크에서 같은 성능이 나오지는 않겠죠. 내부에는 수만 개의 뉴런으로 이루어진 값들이 존재하기 때문에 사람이 일일이 이 값들을 모두 꺼내보거나 분석하기는 아직까지 쉽지 않은 상황입니다. 아무래도 완벽히 실현되려면 먼 미래에 다시 와봐야 할 것 같군요. 이러한 고역이 있는 반면 실제로 한번 제대로 된 모델을 만들거나 터득하게 되면 계속해서 좋은 제품을 양산해낼 수 있으므로 그에 따른 보상이 엄청나게 주어집니다. 인간에 버금가는 능력을 보유한 모델을 만들어 낸 것이기 때문에 이에 대한 만족도와 보상도 크게 따르는 것이지요. 이러한 점을 모두 참고해서 입문을 하시기 바랍니다.