온라인 도구 활용법기초과정 1주차 - 워드 클라우드

Korea House Energy Assessor Association
커뮤니티
자유게시판
홈페이지 공지사항을 확인하세요.

온라인 도구 활용법기초과정 1주차 - 워드 클라우드

Jessica 0 29

안녕하세요~ 워드클라우드 조금 전 올려드렸던 포스팅에서 수집한 링크드인 앱 리뷰 데이터에 대해 파이썬 코랩으로 워드클라우드 시각화를 한번 해보겠습니다. 데이터 수집 관련해서는 아래의 포스팅을 참고해주세요.​어느덧 블로그를 시작한지 5개월 차에 접어들었습니다. 이제 어느정도 게시물이 쌓이면서 그동안 제 블로그...워드클라우드란?워드클라우드는 문서의 문장과 단어를 분석하여 단어의 중요도나 단어의 사용 빈도를 직관적으로 파악할 수 있는 시각화 기법이라고 생각하시면 되겠습니다. ​이 기법을 사용하면 특정 문서에서 자주 등장하는 단어나 중요도가 높은 단어를 한눈에 볼 수 있다는 장점이 있지만 워드클라우드 단어와 단어 간 관계를 표현할 수 없어서 정보가 편향될 수 있는 단점도 존재한다는 점 참고바랍니다.​워드클라우드 시각화 기법은 주로 보도 자료의 핵심 키워드 분석 내지는 소셜 네트워크 인기 게시글 분석에 사용되곤 합니다.링크드인 앱 리뷰 워드클라우드 시각화 실습파이썬 코랩에서 새 노트를 만들어주시고 먼저 아래의 코드를 실행해줍니다. 코랩에서 그래프를 그릴 때 그래프 안에 들어가는 한글 폰트가 깨지는 현상이 발생하는데 이러한 깨짐 현상을 없애주는 코드입니다. 실행을 하고나서, 상단의 메뉴 중 '런타임'으로 가시면 워드클라우드 '세션 다시 시작'이라는 기능이 있는데요. 이걸 클릭하면 세션이 다시 시작됩니다. 다시 세팅이 되면 바로 그 다음 코드를 계속 실행해주시면 됩니다.​이번 워드클라우드 시각화에서는 Mecab 형태소 분석기를 이용하였습니다.자, 이제 폰트 최적화 그리고 패키지를 설치했으니 분석에 필요한 패키지를 가져와봅시다. ​그리고, 지난 번에 수집한 리뷰 데이터를 저는 csv로 변환하여 데이터를 조금 다듬은 상태로 분석을 진행하였습니다. 첨부파일로도 올려놓으니 필요하신 분들은 다운받으셔서 실습해보시길 바랍니다.좌측에 폴더 모양의 아이콘을 클릭하면 왼쪽에 빈 창이 하나 열리는데 이 워드클라우드 공간에다가 csv파일을 드래그앤 드랍으로 가져다 놓으시면 됩니다. ​그리고 나서 아래와 같이 코드를 실행하면, 이렇게 데이터가 불러오기가 된 것을 확인하실 수 있습니다.​텍스트 마이닝을 하려면 긴 문장을 각각의 형태소 단위 수준으로 문장을 쪼개야 하는데요. 그 전에 먼저 데이터를 전처리하는 과정이 필수적입니다. 전처리는 크게 불용어(분석하는데 있어서 있으나 마나한 단어)를 제거하거나, 동음이의어를 하나의 단어로 바꿔주거나, 단어가 아닌 요소(구두점, 느낌표, 물음표 등 특수문자)를 제거해 주는 과정을 일컬어서 말합니다.텍스트 마이닝은 이러한 전처리 과정을 얼마나 워드클라우드 합리적으로 잘 판단해서 처리했냐에 따라 결과물의 품질이 확 달라지기 때문에 전처리 과정은 전체 텍스트 마이닝 분석 과정 중 가장 시간이 많이 소요되는 부분입니다. ​하지만 저는 가벼운 마음으로 진행하는 것이기 때문에 전처리 과정은 조금 널널하게 하였습니다. 전처리가 끝났으면 한번 결과물을 확인해봐야겠죠? 단어의 최대빈도 수를 기준으로 어떤 단어가 많이 나오는지 확인해봤습니다. '취소', '결제', '환불', '프리미엄'이라는 단어들이 주로 많이 등장하는 것으로 보여지네요. 다음은 위의 결과를 막대 차트로도 한번 확인해보겠습니다. 저는 빈도수 워드클라우드 상위 100개의 단어를 막대 차트로 한번 나타내봤습니다. 차트에 나타내고 싶은 단어의 수를 변경하고 싶으시면 word_count_df[:100] 부분에 있는 '100'을 다른 숫자로 변경하고 다시 코드를 실행시키면 됩니다.​자~ 이제 거의 다 왔습니다. 위에서 막대그래프로 빈도수가 높은 단어를 한번 시각화를 해봤는데요. 이걸로는 뭔가 리뷰 데이터에서 주로 어떤 단어가 출현하는지 그 느낌이 확 와닿지가 않습니다. (뭔가 심심함..)​이런 상황에서 필요한 것이 워드클라우드라고 생각합니다. (어떤 메세지를 '뽝'하면서 전달하기에 최적이라는 뜻) 위의 코드를 실행하면 이제 아래와 워드클라우드 같이 워드클라우드가 생성됩니다. 참고로 단어의 크기가 클수록 빈도수가 높은 단어입니다. 전처리가 완벽하게 되진 않아서 중간중간에 '누르', '나오'같은 의미 전달력이 떨어지는 단어들이 몇몇 보이긴 하지만 나름 링크드인 어플에 대한 사용자들의 주요 생각이 어느정도 보이는 것 같습니다.대략 살펴보니 프리미엄 서비스의 무료 이용기간이 끝나가는데도 미처 취소하지 못해 비용이 결제되어버린 이용자들이 비용을 환불해달라는 의견이 많은 것 같습니다.​그리고 '경력'이라는 단어도 높은 빈도수를 보이긴 하는데 그래서 구체적으로 경력이 뭐 어쨌다는 건지 워드클라우드만 봐서는 잘 워드클라우드 이해가 되질 않습니다. ​이것이 바로 위에서 말씀드린 워드클라우드의 단점으로 도출된 단어 간의 관계를 파악할 수 없어 객관적인 의미 해석이 어려울 수 있다는 점입니다. ​따라서 단어 간의 관계를 파악하기 위해서는 다른 방법으로 시각화를 해야하는데요. 다음 시간에는 같은 데이터로 의미연결망 시각화 기법으로 한번 더 분석을 해보겠습니다. 그럼 다음에 뵙겠습니다~ 안녕!​+) 추가로 텍스트 마이닝에 관심이 있으시다면 아래의 포스팅도 함께 참고하시면 좋습니다.안녕하세요~ 지난 워드클라우드 시각화에 이어서 오늘은 단어 간 관계를 한눈에 파악할 워드클라우드 수 있는 의미연결망...

0 Comments