SNS의 실시간 트렌드 분석
관련링크
본문
최근 Twitter나 Instagram, Facebook 등을 비롯한 다양한 소셜 네트워크 서비스(SNS)가 급속도로 확산하여 대량의 글이 작성되고 있다. 실시간으로 작성되는 글에서 트렌드를 찾아 사용자에게 제공하면 현재의 이슈를 사용자가 접할 수 있다. 하지만, 트렌드 정보를 실시간 검색어 순위와 같이 핵심 키워드만을 제공한다면 사용자가 추가적인 정보를 검색하지 않는 이상 키워드의 원인이나 줄거리에 대해 알 수 없다.
본 연구실은 트렌드 키워드 외에도 관련 주제별로 분류하여 이를 하나의 ‘이슈’로 정의하였다. 이러한 이슈를 검출 및 이에 대한 줄거리 요약과 제공으로 사용자가 더욱 쉽게 현재의 트렌드를 이해하기 위한 환경을 구축하였다. 본 연구는 클라이언트-서버 환경에서 트렌드 추출 및 주제별로 분류하여 이슈를 검출 및 요약하였다. 클라이언트에서는 후보 키워드를 추출하며 서버에서 이를 토대로 이슈 요약을 하였다.
● 트렌드 키워드 검출
- 발생 빈도 추적 및 비정상적 단어처리를 기반으로 유효 단어를 추출하고, 이 유효 단어들 사이의 연관 계산 및 Mutual 정보를 사용하여 트렌트 키워드를 검출한다. 그 후, 트렌드의 중요도, 유효 단어의 수, 유효 단어 간의 연관성 및 트렌드의 언급 빈도수를 바탕으로 트렌드 키워드들을 정렬하고, 이를 어휘 DB를 사용한 유의어 확장을 통해 최종 확장된 트렌드 키워드를 얻는다.
● 키워드 관련 해시태그 수집
- 트렌드와 연관된 주제별 분류하기 위하여 트렌드 키워드별로 키워드가 출현한 해시태그들을 수집한다. 이때, 트렌드 키워드가 직접 출현한 해시태그 외에도 트렌드 키워드 추출 중 병합된 후보 키워드 및 연관 키워드가 출현한 글도 수집하였다.
● 핵심 키워드를 통한 후보 키워드 추출
- 트렌드별로 연관된 해시태그들을 수집한 뒤 이를 주제별로 분류하기 위해 트렌드 키워드와 동시 출현한 핵심 키워드를 후보 키워드로 추출한다. 이 과정에서 Stopwords를 제외한 명사를 사용하였다. 이는 해당 과정에서 명사 외의 다른 단어를 포함할 경우, 하나의 단어가 복수의 주제에서 출현하는 경우가 많아 주제별 분류하기 어려워 명사 대상으로 진행하였다.
● 트렌드 관련 이슈 검출
- 효과적인 주제 분류를 위해, 후보 키워드는 일정량 이상의 키워드만을 선택하여, 각각 후보 키워드의 해시태그 리스트를 작성한다. 후보 키워드 간 리스트를 비교하여 중첩된 비율이 전체의 20% 이상 차지할 때 이 두 개의 키워드를 하나의 주제로 분류한다. 이를 반복하여 전체 후보 키워드를 그룹화하여 주제별로 분류하였다. 이렇게 분류된 하나의 주제를 이슈로 정의하여 트렌드 키워드와 연관된 이슈를 검출해낸다.
● 검출된 이슈 요약 및 제공
- 시스템에서는 검출된 이슈에 대한 요약을 한다. 요약은 두 가지 형태로 사용자에게 제공된다. 하나는 이슈에 대한 핵심 키워드 그룹으로 사용자가 대략적인 트렌드 내용을 파악할 수 있도록 한다. 핵심 키워드 추출은 이슈 검출 때와는 달리 모든 단어에 대해서 실시한다.
그림 1 트렌드 키워드 관련 이슈 검출
그림 2 검출된 이슈 요약 및 정보 제공