[해외교육] 수업에서 워드 클라우드를 사용하기 위한 전략

Korea House Energy Assessor Association
커뮤니티
자유게시판
홈페이지 공지사항을 확인하세요.

[해외교육] 수업에서 워드 클라우드를 사용하기 위한 전략

Riley 0 1

​이번 워드클라우드 글은 셀레니움을 사용하는 것뿐만 아니라 긁어온 데이터를 분석까지 진행합니다!형태소 분석기는 설정할 게 많은 konlpy 대신 kiwi를 사용했습니다.python 3.10.14 워드클라우드 환경이고 jupyter(.ipynb)로 진행했습니다.대부분의 설명은 코드의 주석으로 작성되어 있습니다.[작업 순서]1. 특정 영화를 검색해서(selenium)2. 리뷰를 원하는 만큼 수집하고(selenium)3. 리뷰 분석해서(kiwi, 워드클라우드 krwordrank)4. 워드 클라우드 만들고 저장하기(plt, wordcloud)​우선 필요한 패키지를 한 번에 불러옵니다.패키지가 모두 불러와지는지 셀을 실행해서 확인하면서 진행해 주세요.패키지가 워드클라우드 정상적으로 불러와지면, 분석에 필요한 변수와 함수를 지정합니다.영화 이름이나 수집할 리뷰 개수는 원하는 대로 변경할 수 있습니다!​이제 셀레니움을 이용해서 워드클라우드 와차피디아 사이트를 열어줍니다.​영화를 검색하고 코멘트 더보기로 들어갑니다.​이제 원하는 개수만큼 리뷰와 평점을 긁어옵니다.tqdm을 사용해서 다음처럼 진행도를 확인할 수 있습니다.​우선 워드클라우드 평점을 한 번 확인해 볼까요!평균 4.2면 꽤 높네요!​저는 혹시 몰라 df를 우선 저장하고 다시 불러와서 사용하겠습니다.이 부분은 생략해도 워드클라우드 됩니다.​지금은 리뷰가 문장 형태이니, 필요한 명사 형태소(NNG 일반명사, NNP 고유명사, NP 대명사)만 추출해 줍니다.형태소 분석기는 kiwi를 사용했습니다. (kiwi 워드클라우드 github)​필요한 명사류만 추출했으니 100개의 리뷰에서 자주 언급된 키워드만 추출합니다.저는 최소 빈도수를 5로 지정했습니다.​추출한 키워드로 워드 클라우드를 만듭니다.plt로 시각화해서 워드클라우드 확인하고 png로 저장하고 마무리입니다.​

0 Comments