더아이엠씨의 사내문화를 소개합니다.
… 7일 한국지능정보사회진흥원(NIA)의 '2020년 정보화 통계조사' 보고서에 따르면 지난 2019년 말 기준 우리나라의 전체 기업체(222,218개) 중 모바일 기기를 이용하는 기업은 58.3%(129,507개)였다. … 이처럼 대다수 기업체가 모바일 기기를 사용했지만 AI나 빅데이터 등 지능정보 기술 사용률은 저조한 모습을 보였다. AI 기술과 서비스를 이용하는 기업체 비율은 2.5%에 불과했다. 전체 기업체 가운데 70.3%는 AI 기술 및 서비스를 사용하지 않지만 이를 알고 있다고 응답했다. … 빅데이터 기술과 서비스를 이용하는 기업체 비율도 8.6%로 미흡했다. …
무늬만 IT 강국…국내 기업체 AI ·빅데이터 사용 10% 미만 / 에너지경제, 2021.02.07
수요조사를 포함한 시장환경 분석, 빅데이터로 해결?
고객의 수요를 파악하는 것은 기업이 사업을 펼쳐나가는 데 가장 기본적인 일이라고 할 수 있습니다. 기업이 제품이나 서비스를 통해 자본을 확보하려면 수요가 있어야 한다는 것은 기업이 존재할 수 있도록 하는 가장 기본적인 원리이기 때문인데요. 자사의 상품을 사용해 줄 고객을 파악하는 일이 정확하게 이뤄지지 않거나 생략하는 경우, 사업의 실패로 이어질 우려로 커질 수도 있습니다.
중요한 과정인 만큼 이 과정은 대게 많은 비용과 시간을 수반할 수밖에 없는데요. 여기에 경쟁관계에 놓여있는 기업들이 많아진다면 고객을 세분화하여 특정해야 할 필요가 커지기 때문에 조사의 난이도는 물론 투자되는 비용 역시 높아질 수밖에 없습니다. 이렇기 때문에 하루가 급한 입장에 놓여있는 기업들의 입장에서는 제대로 된 수요 조사를 하지 못하고 신사업을 시작하거나 기존 사업을 같은 포지션으로 유지하는 경우가 발생하곤 합니다.
이러한 경우 빅데이터를 활용하는 것이 대안이 될 수 있는데요. 다만, 위 기사에서 나타나 있듯 AI를 비롯한 빅데이터 활용을 아직 나와는 상관없는 이야기, 먼 미래의 일이라고 생각하는 기업들이 아직 많습니다. 프로세스를 이해하기 어렵고 실제로 효과가 있는지를 입증하는 성공적인 활용 사례를 접하기가 쉽지 않기 때문입니다. 일반적으로 알려진 활용 사례들은 구글, 아마존 등 글로벌 대기업의 사례가 많은데요. 더아이엠씨는 국내의 빅데이터 기술을 활용하는 8.6%의 기업들이나 공공기관 등의 사례를 알기 쉽게 전해드리고 있는데요.
실제로 빅데이터는 현황을 파악할 수 있다는 측면에서, 미래를 예측할 수 있다는 측면에서 기업 환경에서 매우 유용하게 사용되고 있습니다. 오늘 소개드릴 사례는 국립중앙박물관에서 전시 사업을 진행하기 위해 수요 빅데이터 분석을 진행한 사례인데요. 여기서 더아이엠씨는 빅데이터를 분석하여 잠재적 방문객 및 수요자의 관점에서 분석된 보고서를 작성하였으며 오늘은 해당 보고서에 통해 빅데이터 분석이 기업을 비롯한 집단에서 어떻게 활용되는지 알기 쉽게 설명드리고자 합니다.
분석의 첫걸음, 분석 설계
'설문조사'는 가장 널리 쓰이는 수요 조사의 한방법이면서 동시에 비용적/시간적/기술적 소모가 심한 방법 중 하나인데요. 비효율성이 크다 보니 이 방법을 채택하는 기업들 가운데 대부분은 대기업인 경우가 많습니다. 이들 기업 또한 리서치 업체에 조사 대행을 의뢰하는 경우가 많은데요.
외부와 연계하여 진행하는 방법이다 보니 조사 실행에 있어서는 전문성을 보장받을 수 있으나, 수요 조사 설계 단계에서 오류가 발생할 우려가 있고, 이러한 오류로 인해 조사가 잘못 진행되었을 때, 이를 즉각적으로 수정하거나 다시 진행하기 어렵다는 단점이 존재합니다. 이러한 기존 수요 조사 방법의 한계를 극복하고자 했던 국립중앙박물관에게 더아이엠씨는 빅데이터 분석 기술을 활용하여 잠재적 방문객 및 수요자와 관련된 정보 조사를 제안했는데요.
그렇게 중앙박물관이 계획 중인 특별전의 기획을 위한 객관적인 근거자료를 마련하고 운영 방안 및 홍보전략을 수립하기 위한 목적으로 분석을 수행하게 되었습니다. 보고서는 크게 '주제 관련 이슈', '관람객의 전시 특성 파악', '시사점 도출 및 제언'으로 구성되었는데요. 자연어 처리 및 데이터 정제, 빈도 및 TF-IDF 계산, 시각화 등을 처리하기 위해 더아이엠씨가 개발한 'TEXTOM'이 활용되었습니다.
데이터 수집과 정제
소셜 미디어 활용의 확산으로 시민들의 생각이 웹, SNS 등에 있는 그대로 나타나는 요즘, 텍스트 데이터 처리 기술의 발달로 빅데이터를 정책 연구 및 기업 마케팅 등에 활용하는 사례가 점차 많아지고 있는데요. 이러한 점을 살려 더아이엠씨는 네이버 뉴스의 453개 언론사의 데이터와 인스타그램, 유튜브, 네이버 블로그 등 소셜 미디어 데이터 등의 데이터를 활용하였습니다.
이들 데이터의 수집 기간은 총 10년으로, 여기에 사용자 검색 빈도를 참고하기 위한 5년 5개월간의 네이버 트렌드 검색 빈도 데이터도 함께 활용되었는데요. 데이터를 수집하는 과정에서 스팸/홍보/광고 등 불용 데이터가 보통 함께 수집되기 때문에. 이번 분석 목적에 맞지 않는 이러한 데이터들은 데이터 후처리 작업을 통해 제거 혹은 정제되었습니다. 동시에 고유 명사/복합명사의 추출을 위한 정제 작업 프로세스를 별도로 마련하여 수행하였습니다.
분석 결과
수집된 데이터로부터 단어의 출현 빈도 계산, 주요 출현 단어의 TF-IDF 값을 계산하는 등의 방법을 통해 상위 50개의 키워드를 선별하였는데요, 선별된 키워드는 다시 주제별로 분류하여 최근 주제와 관련한 관람객들의 이슈 혹은 관심사, 이해 수준 등을 파악했습니다. 수요 조사를 통해 필수적으로 알아내야 하는 정보들을 수집할 수 있는 만큼 박물관이나 전시회가 아닌 어떤 주제라도 수집할 수 있는데요.
예를 들어 박물관, 전시회가 아니라더라도 '빅데이터 교육'을 주제로 관련된 데이터를 분석하고자 하고자 한다면, 관심사로 [텍스톰, R, 파이썬, …], 이해 수준으로 [분석법, 빅데이터mba, 예측 모형, …]과 같은 범주로 구분하여 활용할 수 있다는 것이죠. 이러한 분석법을 통해 거시적인 관점에서 수요층의 특성을 면밀히 파악할 수 있습니다. 또한 네트워크 분석을 통해 연관어를 찾아내기도 했는데요. 시민들의 관심도가 가장 높은 단어 A에 대해 말할 때 B가 얼마나 언급되었는지, 또 B는 C와 얼마나 함께 등장하였는지 등을 파악했습니다.
박물관에 방문 시, 주로 누구를 동반하는지에 대한 조사도 이루어졌는데요. 가족, 친구, 연인, 학교 등 다양한 집단 범주를 설정해 키워드 사전을 구축하였고 이를 토대로 데이터량을 추이를 통해 방문 트렌드, 목적 등을 알아낼 수 있었습니다. 이외에도 TEXTOM 감정 어휘 사전 기반으로 재미있다, 배우다, 행복하다, 아쉽다, 복잡하다 등의 키워드의 빈도를 파악하고 감정 유형을 분류하였는데요. 이를 통해 사람들이 박물관 관람에 있어서 얼마나 긍정적인지를 알 수 있어 CS 관리 차원에서도 활용 가능한 결과를 제공할 수 있었습니다.
수요층의 특성 분석과 발전방안 제시
이번 분석을 통해 뉴스 데이터에서 인류의 기원/진화에 대한 최근 이슈를 도출할 수 있었고, RISS, NDSL에서 논문 정보 또한 수집하여 학계의 연구 동향을 파악할 수 있었습니다. 또한 SNS, 온라인 커뮤니티에서 수집된 수요층의 특성 및 자료를 바탕으로 예정되어 있던 특별전에 대한 마케팅 방안을 수립하는 데 참고할 만한 시사점을 도출할 수 있었는데요.
트렌드를 고려하여 특별전의 콘텐츠 편성에 있어서 가이드라인을 제시하였으며, 높은 비중을 차지하는 관람 타깃에 대한 마케팅을 강화와 스토리 텔링, 체험형 전시 등 차별화된 콘텐츠를 제안했습니다. 또한 이번 분석을 통해 유의미한 결과를 얻어낸 만큼, SNS/웹 동향을 모니터링할 수 있도록 데이터 분석 체계를 마련하여 수요 조사에 있어서 효율을 높일 수 있도록 제언했습니다.