워싱튼: 독감 벌레가 구글을 물었다. 새로운 연구 결과에 따르면, 구글의 자료 집계 도구가 2011-2012와 2012-2013 사이의 독감 철에 미국에서 50%가 넘게 독감 바이러스의 유병를(prevalence)을 과대평가했다고 한다.
연구자들은 독감과 관련된 활동들과 일치하는 구글 검색 결과를 기반으로 전 세계의 독감 증례들을 실시간으로 모니터링하도록 설계된 ‘구글 독감 동향 (Google Flu Trends, GFT)’을 조사했다. “구글 독감 동향 (GFT)은 공학의 놀라운 부분이고 매우 유용한 도구이지만, ‘ 빅 데이터 ‘ 분석이 어떤 곳에서 잘못 활용될 수 있는지도 보여준다.”라고 휴스턴 대학의 정치학 교수인 라이언 케네디는 말했다. 케네디와 공동 연구자들은 구글과 같은 수집기로부터 얻어진 빅 데이터의 잘못된 사용에 대한 새로운 연구를 자세히 설명했다.
수 년 간 GFT 에 대한 수정에도 불구하고, 독감 유행에 대한 대응을 개선하기 위해 설정된 도구는 지난 2 년 동안 미국에서 최대 독감 증례들을 과대 평가해왔다. “‘빅 데이터’ 의 대부분의 원천은, 구글 처럼 지속적으로 자신의 비즈니스 모델에 따라 해당 서비스를 변경하고 있는 민간 기업들에서 온다.”고 케네디 는 말했다. “우리는 이것이 그들이 생산하는 데이터에 어떻게 영향을 끼치는지에 대해 이해할 필요가 있습니다. 그렇지 않으면 우리는 잘못된 결론을 도출하고 잘못된 정책을 채택할 위험을 가지게 됩니다.”라고 케네디 는 말했다.
이 연구에 따르면, 구글 독감 동향 (GFT)은 2011-2012, 2012-2013 시즌의 독감 유병률 (prevalence)을 50%가 넘게 과대 평가했다. 또한 , 2011년 8월 부터 2013년 9월 사이에, 구글 독감 동향 (GFT)은 108주 중 100주 동안 독감 의 유병률 (prevalence)을 과도하게 예측했다.
그 연구진은 또한 트위터나 페이스북 같은 플랫폼으로부터 자료를 수집하는 것 (유행이나 시장 대중성에 대한 투표 같은)에 대해 – 회사들이 그들의 제품이 유행이라는 것을 강조하기 위해 이들 플랫폼을 조작할 수 있기에 – 의문을 제기한다
그 연구 논문은, 인터넷의 구글과 트위터로부터 얻어진 자료들이, 인간의 행동에 대한 깊고 보다 정확한 이해를 창조한다는 명목 하에, 비교적 전통적인 방법론들과 병합될 여지를 가지고 있다고 주장한다. “구글 독감에 대한 우리의 분석은 최상의 결과가 정보와 기술을 양쪽 모두에서 얻어 병합함으로써 얻어진다는 것을 보여준다”고 케네디는 말했다. “새로운 기술과 기법은 우리를 더 나은 모든 종류의 분석을 할 수 있도록 하기 때문에, ‘빅 데이터 혁명’에 대해 이야기하는 것 대신에, 우리는 ‘모든 데이터 혁명’에 대해 논의하고 있어야 한다.”고 케네니는 말했다.
이 연구 결과는 싸이언스 (Science) 저널에 출판되었다.
원문: How Google got US flu prediction wrong http://batumnang.kr/1fRIR00