신문사소개 l 공지사항 l PDF서비스 l 호별기사 l 로그인
빅데이터, 사회와 사람을 잇는 다리
원용찬 ㅣ 기사 승인 2017-05-08 00  |  587호 ㅣ 조회수 : 147
 도대체 4차 산업혁명은 무엇인가. 이해할 수 없는 개념이 요즘 대한민국 사회를 휘젓고 있다. 개념 설명은 이렇다. 4차 산업혁명이란 인공지능, 로봇기술, 생명과학이 주도하는 차세대 산업혁명을 말한다. 1784년 영국에서 시작된 증기기관과 기계화로 대표되는 1차 산업혁명, 1870년 전기를 이용한 대량생산이 본격화된 2차 산업혁명, 1969년 인터넷이 이끈 컴퓨터 정보화 및 자동화 생산 시스템이 주도한 3차 산업혁명은 잘 알 것이다. 이를 이어 로봇이나 인공지능(AI)을 통해 실재와 가상이 통합되고 사물을 자동적, 지능적으로 제어할 수 있는 시스템 구축이 기대되는 산업상의 변화를 4차 산업혁명이라고 일컫는다. 하지만 대학생이 보기에 정치권이 부르짖는 4차 산업혁명이란 이해할 수 없는 개념이다. 특히 이공계 지식이 없는 학생의 경우는 더 힘들다. 인공지능을 이용해서 산업구조를 획기적으로 변화시킨다는 것이 기본적인 내용인데, 자세한 지식이 없다보니 관심도 없다. 오늘 소개하려는 빅데이터(Big Data) 개념은 이중 4차 산업혁명과 직결된 핵심이다.





▲ 구글 트렌드(Google Trend)로 비교해본 일주일 간(5월 8일 기준)의 문재인 후보와 홍준표 후보의 관심도.





▲ 위 그래프의 결과를 전국적 도표로 시각화한 결과. 연한 색이 문 후보, 진한 색이 홍 후보다.


 무엇이 빅데이터인가


 빅데이터란 디지털 환경에서 생성되는 데이터다. 하지만 일반적인 데이터보다 그 규모가 방대하고, 생성 주기가 짧다. 형태도 수치 데이터뿐 아니라 문자와 영상 데이터를 포함한다. 최근 빅데이터 환경은 과거에 비해 데이터의 양이 폭증하고 데이터의 종류도 다양해져 사람들의 행동은 물론, 위치정보와 SNS를 통해 개인의 의견까지 분석하고 예측할 수 있다는 점에서 주목받고 있다. 기존 정보체계는 일방적인 흐름이 많았다. 하지만 빅데이터 개념이 등장한 이후, 특히 SNS로 유통되는 정보를 통해 한 사람 외에도 그 사람과 관계된 타인의 성향에까지 접근할 수 있게 됐다.


 오늘날 유통되는 정보의 양은 정말 ‘억’ 소리 나게 많다. 트위터(twitter)에서만 하루 평균 1억 5,500만 건의 트윗이 오고가며, 유튜브(YouTube)의 하루 평균 동영상 재생건수는 40억 회에 이른다. 빅데이터 체제에서는 이 모든 걸 저장하고, 분석할 수 있는 기반이 마련돼 있다.


 빅데이터를 쓰는 자, 미래를 잡는다


 빅데이터 활용의 특징은 다각화다. 인터넷과 휴대전화, TV의 보급은 데이터의 폭발을 유발했다. 인터넷 검색 한 번의 기록만으로도 서버에 저장된다. 이는 과거와 비교했을 때 혁명적인 발전이다. 거리의 상점에서 물건을 사고, 이를 일지에 기록하는 것은 너무나 단편적인 데이터다. 한 번에 정리하기도 힘들고, 체계적으로 수집하기 어렵다. 그러나 온라인으로 상품을 판매하는 쇼핑몰은 굳이 구매를 하지 않고 찾아본 것만으로도 사용자의 흔적이 기록에 남는다. 따라서 이를 토대로 다시 그 고객이 해당 쇼핑몰 홈페이지에 방문했을 때, 과거 기록과 연관된 광고가 고객에게 노출되는 것이다. 페이스북(Facebook)에서 어떤 광고를 보고 ‘이건 저번에 검색해본 그 상품이랑 비슷한데?’와 같은 생각을 해본 적이 있을 것이다. 역시 같은 원리다. 이렇듯 상업적 측면에서 빅데이터의 가치는 높다. 매일 그 규모가 늘어나기 때문에, 그 가치도 계속 커질 것이다.


 이에 대해 페이스북 부사장인 롭 셔먼은 한국경제신문과의 인터뷰에서 “각종 빅데이터를 활용해 질병 확산 방지나 인터넷 보급, 장애인 지원 활동을 펼치고 있다”고 말했다. 셔먼 부사장의 말대로 페이스북은 리우 올림픽을 앞두고, 유니세프(UNICEF)와 함께 지카 바이러스(Zika Virus) 예방 캠페인에 나섰다. 이들 기업은 페이스북 게시물 속 데이터를 분석해 지카 바이러스에 남성이 여성보다 관심이 많다는 사실을 발견했다. 이후 페이스북은 지카 바이러스에 걸린 딸을 둔 남성의 실화를 스토리텔링 광고로 제작해 좋은 반응을 얻었다. 페이스북에 따르면 광고를 본 사람의 82%가 스스로 긴팔 소매를 입어 바이러스 예방에 나섰다. 빅데이터가 사회에 긍정적인 영향을 미치는 좋은 예다.


 또한, 빅데이터는 현재 가장 큰 이슈인 제19대 대통령 선거에도 중요한 역할을 할지 모른다. 일례로 2014년도 서울시장 선거에서 엄정한 통계를 거쳐 발표된 여론조사 결과보다 트위터(Twitter)에서 언급된 트윗을 바탕으로 한 빅데이터 분석이 실제 결과와 더 유사했다. 선거 관련 빅데이터는 2016년도 총선 이후 언론으로부터 주목받았다. 2016년도 총선은 여론조사의 실패를 상징하는 선거였다. 당시 여당인 새누리당의 압승을 예상했던 여론조사는 철저하게 틀렸다. 야당의 대승이었다. 일례로 서울 종로구에서의 국회의원 선거는 여론조사 상 새누리당 오세훈 후보가 상대 민주당 정세균 후보에 비해 크게 유리했다. 하지만 결과는 반대였다. 이 결과를 설문조사 방식의 근본적인 문제로 보는 분석이 많다. 결국 이후 설문조사의 편향성이나, 왜곡에 대응하기 위해 빅데이터를 활용하는 것으로 정보를 보충하게 된 것이다.


 언론사 중 일부는 아예 빅데이터를 전문으로 취급하는 연구소와 손을 잡고 현 대선 상황을 보도하고 있다. 매일경제와 SBS가 대표적이다. 매일경제는 ‘레이더P 대선 빅데이터’, SBS는 ‘SBS 빅-지수’를 발표하고 있다. 매일경제는 SNS와 뉴스·댓글 등에서 각 대선후보 이름이 제목에 언급된 기사·게시물·댓글 수와 동영상 조회 수 등을 통해 화제성을 추측한다. SBS의 경우는 SNS, 유튜브 조회 수를 반영한 관심도, 주목도, 호감도 등을 평가해 대선 후보에 대한 대중의 관심을 옮겨내고 있다. 


 물론 여론조사와 마찬가지로 빅데이터에 대한 맹신도 경계해야 한다. 중앙선거관리위원회는 여론조사와 빅데이터 조사를 혼동할 것을 우려해 유권자들에게 주의를 부탁하기도 했다. 재밌게도 선거여론조사는 선거 일주일 전까지만 공표할 수 있지만, 빅데이터 조사는 이에 해당하지 않는다는 유권해석이 내려졌다. 이번 587호가 배포되는 날이자 대선 전날인 8일(월)에도 빅데이터를 이용한 화제성을 측정해 공표하는 것이 가능하다.


 이외에도 빅데이터의 활용 분야는 더 많다. 의료, 유통 및 마케팅, 그리고 내비게이션에서 최적 경로를 찾는 것도 사실상 빅데이터 기술이 있어서 가능하다. 빅데이터 기술이 우리 산업에 가장 크게 기여한 것은 과거 기록에 쉽게 접근할 수 있게 했다는 점이다. 발달한 IT 기술과 컴퓨터 과학이 빅데이터 체제의 발달을 도왔다. 그리고 현재의 사람들은 이를 적극적으로 향유하고 있다. 개인의 미래를 손쉽게 예측하는 이 시스템은 어떤 방향으로든 개인에게 영향을 주고 있다.


 빅데이터 공룡의 등장-에치오니와 거대기업


 이 빅데이터 시장은 어떻게 시작됐고, 누가 주도하고 있을까. 빅데이터를 활용하는 대표적인 기업은 구글과 페이스북이다. 그렇다고 구글이 빅데이터 시장을 처음 열어 젖혔느냐 하면 그건 아니다. 빅데이터를 활용한 기업은 1994년부터 세상에 모습을 보이기 시작했다. ‘메타크롤러’라는 이름의 세계 최초의 검색엔진 중 하나가 있었고, 대형 비교 구매 웹사이트인 ‘넷봇’, 그리고 텍스트 문서에서 의미를 추출해내는 ‘클리어포리스트’라는 회사가 있었다. 오렌 에치오니(Oren Etzioni)란 컴퓨터과학자가 이들 기업을 설립해 유명 회사에 되팔았다. 그 유명회사들은 지금 빅데이터를 주도적으로 사용하고 있는 바로 그 기업들이다.


 특히 에치오니는 여행 웹사이트에서 뽑은 1만 2,000개의 가격 샘플을 이용해 예측 모델을 만들어 냈다. 이전 항공사 이용자들은 계절 수요, 잔여 좌석 수, 주말 체류 조건부 할인 등의 가격 변수를 알 수 없었다. 에치오니는 기존의 데이터들을 통해 이를 예측할 수 있는 모델을 만들어냈고, 이는 ‘페어캐스트’라는 신생 기업의 창설로 이어졌다. 페어캐스트는 빅 데이터 시스템을 구축해 예측 프로그램에 적용했고, 이후 1년 내내 미국 민간 항공의 전 항공편, 좌석 정보에 기초해 예측을 내놓게 됐다. 이들이 처리한 항공편과 가격기록은 무려 2,000억 개에 이른다. 이후 페어캐스트는 마이크로소프트에 매각됐고, 마이크로소프트의 대표 검색엔진 Bing의 일부로 편입됐다. 2012년 이 시스템은 75%의 정확성을 보이며, 아직도 여행자들에게 이용되고 있다. 여행자들은 이 시스템을 이용해 상당부분 비용 절감 효과를 누렸다.


 또한, 구글은 대표적인 검색 엔진으로서 빅데이터를 활용해 매출 향상 등의 비즈니스 효과를 거두고 있다. 구글과 이베이는 웹에 접속한 소비자의 성향을 분석해 활용한다. 국내에서도 삼성 그룹, 현대자동차 등이 빅데이터를 경영에 활용한다.


빅데이터의 함정1: 反익명성


 하지만 빅데이터를 응용한 사회가 긍정적인 면만을 갖고 있는 건 아니다. 어떤 것에도 양면성이 존재하듯 빅데이터도 마찬가지다. 우습게도 빅데이터의 어두운 면은 ‘빅 브라더’로 상징되는 개인 통제 여부와 관련돼 있다.


 가장 큰 문제는 사생활 보호 문제다. 페이스북을 이용하는 모 학생은 최근 지인에게 얼마 전 어디에 다녀오지 않았느냐는 말을 들었다. 자신이 알려준 적이 없는데도 왜 친구가 알고 있는 것일까. 그것은 바로 페이스북에서 위치 확인 시스템을 구동했기 때문이다. 이 시스템이 구동된 채라면, 친구가 자신의 위치를 보는 것을 막기 어렵다. 


 사실 페이스북과 구글 등을 통해 기록되는 모든 정보는, 이용자가 기록에 ‘동의’한 것이다. 자신의 사생활이 기업체의 데이터 시스템에 기록되는 걸 모든 이가 달갑게 여기지 않지만, 그럼에도 이용 약관을 꼼꼼히 읽어보는 사람은 많지 않다.


 게다가 이 데이터 괴물은 생각보다 많은 것을 알고 있다. 일례로 영화 대여 서비스 업체인 넷플릭스는 50만명에 달하는 이용자의 1억 개의 영화 대여 기록을 공개한 바 있다. 물론 이 때 이용자의 개인 식별 정보는 제거됐다. 그러나 이 과정에서 커밍아웃하지 않은 레즈비언 여성의 신상이 식별됐다. 이 여성은 나중에 ‘익명’이라는 이름으로 넷플릭스를 고소했다. 그러나 이미 익명이라는 이름은 크게 의미가 없어진 상황이었다.


 이에 대해 텍사스 대학교 오스틴 캠퍼스의 연구진은 일반적으로 넷플릭스 고객이 무작위로 선정한 6개 영화에 매긴 점수만으로 그가 누구인지 84%의 확률로 식별할 수 있다는 사실을 공개했다. 만일 이용자가 영화에 점수를 매긴 날짜를 안다면 데이터 집합에 있는 50만 명의 고객 중 누구인지까지 99%의 정확도로 알 수 있다는 걸 증명해냈다.


 빅데이터의 함정2: 과거 정보에 대한 맹신


 영화 〈마이너리티 리포트〉를 본적이 있는가. 예언자의 정보를 통해 미래의 범죄자를 잡아내는 시스템이 등장한다. 만약 이 예언자를 데이터가 대체한다면 어떤 일이 발생할까. 빅데이터에 대한 맹신은 무한한 가변성이 존재하는 인간의 미래를 너무 가볍게 재단하는 결과로 이어질 수 있다. 빅토르 마이어 쉰버거의 책 『Big Data』에선 미국에서 데이터 분석에 기초해 이뤄지는 범죄 예방 활동을 지적한다. 이에 따르면 절반 이상의 미국 주에서 가석방 심의 위원회가 죄수를 석방할지 감금할지를 결정하는 요소 중 하나로 데이터 분석에 기초한 예측을 이용한다고 말한다. ‘한 지역이나, 집단, 개인이 범죄를 저지를 가능성이 높다’는 알고리즘을 근거로 예측 경찰 활동을 허용하는 곳도 생겼다.


 예방이라는 이름으로 한 집단의 성격과 미래 행동을 예측하는 행위는, 효율성 측면에선 생각해볼 법 하다. 그러나 한 개인을 ‘같은 성향의 집단’이라는 테두리 안에 둘 수 있느냐 하는 지적에 대해선 더 많은 논의가 필요해 보인다.


▲ 김종호 총장의 취임사를 〈Word it out〉으로 핵심 단어를 추출해낸 단어 지도(위), 남궁근 前 총장의 취임사를 마찬가지로 추출해낸 단어 지도(아래)


 대학생에게 유용한 빅데이터 툴(Tool)


 소개할 프로그램은 ▲Google Trend ▲Google Public Data ▲Google MyMap ▲Word it out이다. 빅데이터를 이용한 이들 프로그램들은 대학 생활을 하면서 유용하게 쓰일 수 있다.


 먼저 구글 트렌드(Google Trend)는 한 키워드에 대한 전세계의 관심도를 표현하는 프로그램이다. 이는 지난 미 대선에서 트럼프의 관심도가 힐러리보다 높았음을 발표하고, 트럼프의 당선이 현실화되자 화제가 됐던 프로그램이다. 특정 키워드가 얼마나 웹에서 많이 언급됐는지를 알아볼 수 있으며 다른 대상과 비교까지 가능하다. 게다가 지역별, 시간대별 현황도 함께 볼 수 있다.


 구글 퍼블릭 데이터(Google Public Data)는 전 세계 통계치를 모아둔 웹페이지다. 마찬가지로 구글에서 운영하고 있으며, 유럽연합을 비롯한 많은 국가들이 정식으로 발표한 통계치를 한데 모아 이용자가 편히 볼 수 있도록 하고 있다.

다음으로 구글 마이맵(Google MyMap)은 사용자가 원하는 정보를 지도에 추가할 수 있는 시각화 도구다. 현재는 구글 드라이브에 통합된 상태로 사용자는 지도에 위치를 표시하는 것 외에 경로를 표시하거나 특정 건물을 색칠할 수 있다. 지도에 추가한 장소가 많은 경우 각 장소마다 디자인을 다르게 지정할 수도 있다. 이를 외부에 공유하고, 권한이 지정된 사람과 함께 위치정보를 수정하는 것도 가능하다.


 워드 잇 아웃(Word it out)은 한 문서에서 어떤 단어가 얼마나 언급됐는지 시각화해주는 프로그램이다. 이를 통해 한 문서에서 언급된 단어를 모두 데이터화해 구현할 수 있다. 시각화를 할 때 글의 색깔이나 문체도 조정할 수 있으며, 적게 언급된 단어를 크게 표현할 수 있다.


 원용찬 기자
 YongChan@seoultech.ac.kr

기사 댓글 0개
  • 첫번째 댓글을 남겨주세요.
댓글쓰기 I 통합정보시스템, 구글, 네이버, 페이스북으로 로그인 하여 댓글을 남기실 수 있습니다.
확인
욕설, 인신공격성 글은 삭제합니다.
[01811] 서울시 노원구 공릉로 232 서울과학기술대학교 I 최초발행일 1963.11.25 I 발행인: 김종호 I 편집장: 김선웅
Copyright (c) 2016 SEOUL NATIONAL UNIVERSITY OF SCIENCE AND TECHNOLOGY. All Rights Reserved.