코스콤(한국증권전산)이 트위터, 페이스북 등 소셜네트워크서비스(SNS)에서 사용되는 단어를 분석, 주가를 예측하는 시스템을 만들었다.
이 주가 예측 시스템은 '빅데이터'(데이터의 생성 양·주기·형식 등이 방대한 데이터)를 활용한 것으로 현재 적중률이 상용화에 필요한 수준(60%)를 훨씬 웃돈다. 이에 따라 주식 매매 기법의 혁신을 몰고 올 것으로 예상되고 있다.
기술혁신단 소속 자본시장IT연구소는 지난 1월부터 연구를 시작해 10개월여 만에 개발을 완료했고 현재는 시범서비스를 하고 있다.
뉴시스는 지난 18일 이 시스템의 개발을 주도한 강태홍 코스콤 자본시장IT연구소장을 만나 예측 시스템의 개발 배경과 향후 계획 등에 대한 설명을 들었다.
강 소장은 "주가는 신(神)도 모르는 것인데 감성분석이 큰 의미가 있을까에 대한 의구심이 들 수 밖에 없었지만 하다 보니 기대 이상의 결과를 얻어냈다"며 "우리는 주가예측이라는 구체적인 목적을 갖고 시스템을 개발했지만, 주가예측은 빅데이터 활용의 시작일 뿐"이라고 자신했다.
그는 "데이터를 분석해기 위해 형태소사전과 감성사전을 만드는 것이 가장 힘들었다"며 "현재 형태소사전에 25만개, 감성사전에 5만9000개의 단어가 등록돼있고 계속 확장·갱신하고 있다"고 밝혔다.
그는 또 "데이터를 수집·분석하다보니 부수적인 정보가 많이 나오는데 이것을 잘 활용하면 주가 예측뿐만이 아닌 많은 부분에 적용할 수 있을 것"이라며 "내년에 빅데이터센터를 구축하는 사업이 추진될 것"이라고 밝혔다.
다음은 강 소장과의 일문일답이다.
- 주가 예측에 빅데이터를 사용하기로 결정한 계기는?
"3년 전 쯤에 빅데이터가 이슈화됐다. 2011년 초에 더웬트 캐피탈이라는 영국회사가 트위터를 이용한 펀드를 6개월 정도 운영했다. 창업자 폴 호틴은 지난해 여전히 트위터를 활용하는 투자회사 아틀란틱을 세웠다. 이런 추세는 우리가 이번 프로젝트를 시작하게 된 계기가 됐다."
- 해외 사례를 벤치마킹했나. 해외의 시스템과 비교해 코스콤의 시스템의 차이는?
"그들이 트위터를 사용했다는 것 외에는 정확히 어떻게 운영되는지 공개되지 않아 알 수 없었다. 같은 이유로 구체적으로 비교해보지는 못했다. 그들은 실제로 빅데이터를 이용해 성공적인 투자로 수익을 내고 있지만, 우리는 아직 거기까지 가지 못했다. 현재 한 증권사에를 통해 시범서비스를 하고 있고, 수익률이 얼마나 나는지 검증하고 있다."
- 개발 과정에 대해 설명해달라.
"솔직히 처음에는 뭐가 뭔지 잘 몰랐다. 대충 데이터를 수집하고 저장·정리·분류해서 분석해야 한다고만 생각했다. SNS, 뉴스사이트, 증권사이트 등에서 데이터를 수집했다. 수집한 데이터를 분석하기 위해 사전을 만들었다. 예를 들어 삼성전자는 '삼성', '반도체', '갤럭시' 등의 단어로 수집될 수 있다. 또 감성표현이 긍정적인지 부정적인지 구분하기 위해 감성사전을 만들어야만 했다. 현재 형태소사전에 25만개, 감성사전에 5만9000개의 단어가 등록돼있다. 처음 4개월간은 이 작업에만 몰두했다. 14명의 인력으로 이 작업을 시작했다. 데이터 수집, 저장, 분석, 시각화와 전체 시스템 운영관리 등에 필요한 최소의 인원이다. 코스콤도, 우리 팀도 큰 기대를 하지 않고 작게 시작했다."
- 큰 기대를 하지 않은 이유는?
"주가는 신도 예측할 수 없다고들 하는데 감성분석이 의미가 있을까에 대한 의구심이 들었다. 주가예측 프로그램은 이미 많은데 우리는 감성을 이용했다는 것만 달랐다. 실제로 국내에서 빅데이터를 활용해 주가예측을 시도했다가 실패한 증권사도 몇 군데 있다. 증권사들은 적중률이 60%만 넘으면 실제 업무에 사용할 수 있다고 말했고, 현재 평균적으로는 60%를 훨씬 웃도는 결과를 얻었다. 데이터를 확장·갱신하면 더 좋아질 수 있다."
- 성공 이유가 무엇이라고 보나?
"특별히 분석에 공을 많이 들였다. 데이터의 분량도 중요하지만 제대로 분석할 수 있는 '데이터 과학자'가 있어야 통찰력을 얻을 수 있고, 이론적으로 설명할 수 있다."
- 빅데이터가 악용될 수도 있다는 우려가 있다. 해결책은 있나.
"사기방지와 시장감시는 언제나 생각하고 있다. 빅데이터 기술의 가장 큰 단점은 '악용될 소지'가 있다는 것이다. 이를 완벽하게 차단할 수 있는 방법이 아직 부족하다. 예를 들어 특정 사람이 트위터에 의도적으로 나쁜 소문을 퍼뜨릴 수도 있다. 현재는 자료를 시각화해서 이상한 것을 개별적으로 걸러내고 있다."
- 외국인 투자자들이 국내 증시에 미치는 영향이 크다. 외국인 투자자들의 감성도 수집·분석 하는가.
"아직 못하고 있지만 생각은 하고 있다. 현재는 해외주가지수에 해외 감성지수가 반영됐을 것이라고 가정하고 있다. 사실 영어는 한글보다 형태소나 감성단어를 분석하기가 쉽다. 해외 데이터는 확장해 갈 예정이다. 일단 지금은 국내 자료 분석 방법을 안정화시키는 중이다."
- 이 시스템은 향후 어떻게 활용되는가?
"이런 시스템은 업무 전산화 같이 한 번 만들어 두면 계속 굴러가는 것이 아니다. 꾸준히 공부하고 연구하면서 관리해야 한다. 누적 데이터도 갱신·확장해야 하고 유지 관리도 필요하다. 예측의 정확도가 떨어지거나 특별한 일이 발생하면 그때마다 반영해야 한다. 코스콤 사업계획에 내년에 빅데이터센터를 구축하는 계획에 들어있다.
- 빅데이터센터에 대해 설명해달라.
"대형 증권사들은 어떻게든 자체적으로 빅데이터를 활용하는 주가예측시스템을 구축하려고 할 것이다. 하지만 중소형 증권사들은 분석인원이나 자금이 부족해 자체적으로 이를 구축하기 힘들다. 이들에게 서비스를 제공할 수 있을 것이다. 빅데이터센터가 정보의 불균형을 해결하고, 시스템을 관리하는 역할을 할 수 있을 것이다. 빅데이터에 대한 관심이 많아 추진하는데 큰 문제는 없을 것으로 본다.
- 빅데이터 분석 기술을 확장 적용할 계획도 있는가.
"현재는 주가예측에 목표를 두고 데이터를 수집, 분석하고 있지만 부수적 정보가 많이 나온다. 대표적인 예로 지난 4월 '대한항공'과 '라면'이라는 키워드가 많이 수집되는 것을 보고 분석해보니 '포스코 라면 상무 사건'을 언론에서 이슈화되기 3~4일 전에 알게 됐다. 이러한 부산물은 주가 예측 뿐 아니라 다른 곳에도 잘 활용할 수 있을 것 같다. 선거철 때 빅데이터가 활용되는 것은 이미 다 알고 있다. 또 마케팅이나 사기방지 등에도 활용될 수 있다."
- 빅데이터의 발전 가능성에 대해.
"우리는 주가 예측이라는 구체적인 목적을 갖고 '탑-다운'방식으로 시스템을 개발했지만, 이것은 빅데이터 활용의 시작일 뿐이다. 빅데이터센터가 활성화되면 이미 모아둔 데이터를 활용해 '보텀-업(Bottom-up)'방식의 개발이 자연스럽게 추진될 것으로 본다. 현재는 텍스트 데이터만 사용하고 있지만 앞으로는 음성이나 동영상으로까지 확장할 계획이다."