내 가슴 뛸 맞선남 ‘빅데이터’가 찾아준다
최근 빅데이터(Big Data)라는 말이 여기저기서 나온다. 글자 그대로 해석을 하자면 ‘빅(Big)’은 크다는 것이고, ‘데이터(Data)’는 의미 있는 정보를 가진 모든 값을 의미한다. 말 그대로 커다란 크기의 데이터가 빅데이터이다. 데이터에 항상 따라다니는 용어로 정보와 지식이 있다. 이 용어들은 조금씩 다른 의미를 갖는다. 그렇다면 이들은 어떻게 다르고, 미래사회에서 데이터는 얼마나 중요한 의미를 갖는지 알아보자.
다음과 같은 간단한 시나리오를 생각해볼 수 있다.
‘새로운 만남을 위해 커플 매칭 시스템에 등록했다. 내 유전자 정보와 성격유형 검사 결과를 전송해야 했다. 내가 중요한 정보를 제공한 만큼 상대방의 프로필도 확실했다. 대화는 예상대로 즐거웠다. 하지만 좀 더 확실히 해 두어야겠다는 생각이 들었다. 오늘 나눈 대화 파일을 전송하여 인공지능 심리분석 프로그램에 분석을 요청했다. 20대에는 짜릿한 만남을 즐겼기에 심리분석 따위가 필요 없었으나 이젠 결혼 상대자를 고르는 것이니만큼 신중할 수밖에 없었기 때문이다.’
이는 허황된 시나리오가 아니다. 데이터를 많이 축적하고, 정보를 많이 확보한 뒤에 이를 다양한 형태의 지식으로 표현하는 미래에는 이런 심리분석이나 만남을 주선하는 정보기술이 실제로 나올지 모른다. 이런 기술은 IT의 핵심이라고 할 수 있다. 이를 이해하기 위해서는 데이터와 정보, 지식과 지혜의 차이점에 대해 알아둘 필요가 있다. 이를 간단하게 도식화하면 <그림>과 같다. 가장 아래에는 사실에 기반해 관찰하고 수집이 가능한 데이터가 자리한다. 그 위에 데이터의 상황을 설명하는 정보, 정보에 의미를 더한 지식, 통찰력을 갖춘 지식인 지혜가 차례로 위치한다.
정보의 축적과 활용은 비단 오늘날의 문제만은 아니다. 자연과학에서 말하는 정보는 데이터 분석과의 결합을 통해 만들어지는 산물로 본래 투입된 신호가 그대로 전송되는 과정과 조건을 의미한다. 이 같은 관점에서 우주의 탄생으로부터 현재와 미래까지 시간적·공간적 분석 범위를 확대시킨다면, 정보란 우주와 생명, 그리고 인간을 구성하는 다양한 법칙들이 만들어지고 유지되는 것과 밀접한 관련성이 있다고 할 수 있다.
우주의 시작부터 지구의 형성과 생명의 등장, 그리고 인류의 출현 과정을 통해 수많은 정보들이 생겨났다. 인류는 이런 정보들을 축적하고 활용하면서 어떤 다른 종보다 급속하게 진화했다. 약 700만년 전에 공통조상으로부터 유인원과 인류가 분화되면서 이들은 서로 다른 방식으로 자연환경의 변화에 적응했다. 그 결과 생활방식이나 문화도 달라졌다. 특히 인류는 급격한 자연환경의 변화에 적응하고 생존하기 위해 여러 가지 정보들을 축적하고 교환했다. 무엇보다도 이와 같은 정보들을 다음 세대에 효과적으로 전수함으로써 다른 종들과는 전혀 다른 생활방식을 영위하기 시작한 것이다.
IT가 데이터와 만나면 ‘디지털(digital)’이라는 완전히 새로운 방식의 개념으로 이를 처리하게 된다. 디지털을 구성하는 가장 작은 입자는 비트(bit)이다. 비트란 빛이나 전기 등을 활용해서 On·Off라는 2가지 선택으로 모든 것을 나눌 수 있게 만든 것이다. 그렇기 때문에 비트를 표현할 때는 0과 1이라는 2개의 수만 활용하는데 이진법으로 표현한다. 0과 1로 표현하는 방식을 처음 도입한 것은 역사적으로 1732년 바실 부촌(Basile Bouchon)과 장-밥티스테 팔콘(Jean-Baptiste Falcon)이 발명한 천공카드에서 그 기원을 찾는다. 이 기술은 IBM 등에 의해 초창기 컴퓨터의 개발 및 활용에 이용되면서 꽤 오랜 기간 비트와 디지털을 대표하는 기술로 각광받았다.
비트가 중요한 이유는 오늘날의 기계, 전기, 전자 기기들이 이를 가장 잘 표현할 수 있기 때문이다. 전기가 통하는지 여부를 결정할 수 있는 스위치, 빛의 On·Off, 전압의 고저 등으로 0과 1은 간단히 정의할 수 있다. 그 결과 다양한 방식의 기기들이 비트를 활용해 우리가 사는 세상을 표현할 수 있게 되었다. 빛의 속도로 움직일 수 있으면서도 전혀 무게가 나가지 않고, 변화도 일어나지 않는 완전히 새로운 형태의 디지털 원자를 얻게 된 것이다. 이런 특징 때문에 정보기술은 커다란 변혁을 일으키게 된다.
초창기 디지털 세상은 그렇게 사정이 좋지 않았다. 인간의 눈으로 보는 영상과 귀로 듣는 수준의 소리를 전달하는 용량의 데이터는 저장하기도 어려웠고, 전송할 수도 없었다. 그래서 일단 눈과 귀에 거슬리더라도 작은 데이터로 디지털화하는 것이 불가피했다. 조금이라도 많은 데이터 용량을 저장하고 전송하기 위해 개발한 기술이 압축기술들이다. 그래서, 과거의 디지털 기술들은 어떻게 효율적으로 디지털 데이터를 만들어내고, 전송할 수 있는지에 초점을 두고 발전했다. 하지만 최근에는 하드웨어와 통신 인프라가 과거와 비교할 수 없을 정도로 좋아진 덕분에 ‘효율’보다 ‘한층 나은 경험’을 선사할 수 있는 기술들이 더욱 중시되기 시작했다.
모바일 기술과 사물인터넷(Internet of Things, IoT) 기술이 발전하고, 소셜미디어 등이 활성화하면서 이제는 사람들이 실시간으로 여러 가지 정보를 생산하고 내놓을 수 있게 되었다. 그 결과 수많은 데이터들이 쌓이는 빅데이터 시대가 열렸다. 데이터가 많으면 이를 바탕으로 새로운 정보들이 많이 나타나게 된다. 이런 정보를 인공지능 등을 통해 가공하면서 새로운 지식혁명의 시대가 열리고 있다.
앞으로는 데이터 양이 과거와 비교할 수 없을 정도로 빠르게 늘어날 것이 확실하다. 스마트폰은 음성이나 문자는 물론 사진과 GPS의 위치정보까지 수많은 데이터들을 시시각각 만들어내고 있다. 트위터나 페이스북, 카카오톡과 같은 사회관계망서비스(SNS)는 전 세계 수많은 사람들의 메시지를 거의 실시간으로 쏟아내고 있다. 앞으로 모바일 환경에서의 다양한 행위들은 모두 새로운 데이터가 되어 사이버공간의 어떤 저장소로 전송될 것이다. 자동차나 가전기기, 빌딩 등에도 스마트 기술이 적용되면서 무수한 데이터의 원천이 될 것이다. 사람들은 스마트폰 등 모바일 기기를 통해 언제 어디서라도 이런 데이터에 접근할 수 있다. 무엇보다 이렇게 생성된 데이터들을 모으는 ‘클라우드’ 서비스가 활성화하면서 가까운 미래는 빅데이터를 제대로 활용하고 처리할 수 있는 능력이 대단히 중요한 경쟁력이 될 것이다.
데이터의 진정한 가치는 데이터에서 추출할 수 있는 새로운 사회적 가치가 있는지 없는지로 결정된다. 충분한 양의 데이터를 획득하는 것은 초기 단계에 불과하다. 이렇게 모은 데이터를 관리하고 분석해 실질적인 비즈니스와 사회적인 가치를 어떻게 뽑아낼 수 있을지 해답을 주는 것이 그 다음 단계다. 이 단계를 거치면 데이터를 서비스화해 다양한 방식으로 유통이 이루어지고, 과거에는 생각하지 못했던 숨겨진 가치를 창출하는 단계로 진화하게 될 것이다. 이처럼 데이터가 중심이 되는 미래사회는 데이터 기반 사회(Data Driven Society)라고 불러도 무방하다.
빅데이터에 열광하는 사람들은 축적된 데이터들을 분석해서 우리 사회와 비즈니스의 많은 문제를 풀어낼 수 있는 솔루션으로서의 가능성을 높게 평가한다. 이들은 데이터를 이용해서 과거보다 올바른 판단을 내릴 수 있고, 보다 건강한 삶을 누릴 수 있으며, 효과적인 도시계획을 하고, 더 잘 팔릴 만한 상품을 기획하고, 보다 안전한 사회를 만들 수 있다는 등의 다양한 시나리오를 말한다. 조금 극단적인 사례도 있는데 미국 국가안보국이 그런 경우다. 이들은 모든 통화기록의 데이터를 모아서 분석하면 테러를 막을 수 있다고 생각한다. 의도는 이해가 가지만, 어쩐지 섬뜩하다.
항상, 뭐든지 좋기만 한 것은 없다. 빅데이터 시대도 마찬가지다. 나타날 수 있는 부작용을 고려해야 한다. 일단 가장 먼저 떠오르는 부작용은 사생활 보호 문제다. 데이터는 결국 수많은 기기들이나 개인들의 정보를 모아서 만들어지는 것이다. 이 데이터를 잘 분석해서 우리가 이익을 얻으려면 사적인 정보를 가능한 한 많이 모아야 한다. 각 개개인이 데이터 분석을 통해 자신에게 맞는 정보를 얻기 위해서도 역시 개인정보를 많이 활용할 수 있어야 한다. 이는 데이터의 혜택을 많이 얻으려면 되도록 많은 사람들이 개인정보를 보호하기보다는 타인이 활용할 수 있도록 동의해야 한다는 의미다. 이는 양날의 검과도 같다. 다시 말해 데이터 기반의 지능적인 서비스를 받기 위해서는 지나치게 개인정보 보호를 주장할 수 없다. 반대로 개인정보를 강력하게 지키려면 되도록 자신의 데이터를 주지 않아야 하는데 자신도 그만큼 필요한 정보와 지식을 얻는 데 소외되는 것을 각오해야 한다. 결국 사회적으로도 가치 있으면서 윤리적이고, 법적으로도 큰 문제가 없는 수준의 데이터 활용과 개인 사생활 보호의 균형점을 찾는 노력이 매우 중요하다.
빅데이터 시대는 개성의 상실이라는 부작용을 낳을 수도 있다. 많은 사람들의 데이터를 모아서 다양한 형태의 ‘추천’이 생겨난다고 생각해보라. 각 개인의 결정은 아무래도 데이터 분석을 통해 추천된 것에 영향을 받을 공산이 크다. 페이스북 뉴스피드를 예로 들 수 있다. 뉴스피드는 개인들의 ‘좋아요’나 ‘댓글’ 등을 분석해 적절한 내용을 알아서 보여주기도 하고 안 보여주기도 하면서 지나치게 많은 정보가 사용자들을 괴롭히지 않도록 하고 있다. 이는 편리한 듯하지만 가만히 생각해보면 시스템의 결정에 의해 내가 정보를 볼 수 있는 기회 자체를 봉쇄당하는 것이나 마찬가지다.
뉴스피드는 그래도 좀 낫다. 상품 구매나 서비스의 선택, 그리고 의견 등이 사용자의 성향에 맞는 것들만 노출되고, 이런 일이 계속 반복되면 상황은 더욱 심각해질 것이다. 과거에 조금 싫어하거나 꺼려했던 경험은 아예 시도해 볼 기회조차 사라질지 모르기 때문이다. 이미 많은 사람들은 검색엔진이 골라주는 정보만 보고, 평점이 높거나 맞춤형으로 자신에게 제시된 상품만 소비하고 있다. 이렇게 되면 개인의 독자적 선택, 즉 ‘개성’이 본질적인 도전을 받는다. ‘추천’해주는 대로 손쉽게 결정하는 데 익숙해져서 개성있는 선택 능력을 거세당하는 상황이 SF 속 이야기로만 들리지 않는 이유가 여기에 있다.
마지막으로 거대 기업이나 정부 등 빅브러더의 탄생, 시민들에 대한 이들의 지배력 강화에 대한 우려가 있다. 데이터 서비스를 제공하는 기업이나 공공기관들은 걱정하지 말라고 하지만 데이터도 권력이 될 수 있음을 감안하면 믿을 수가 없다. 이런 문제를 해결하려면 데이터의 민주화, 자유로운 활용, 시민 권리 등의 가치에 대해 고민해야 한다. 이미 데이터 기반의 사회는 우리 주변에 와 있다.