[해외교육] 수업에서 워드 클라우드를 사용하기 위한 전략
이번 워드클라우드 글은 셀레니움을 사용하는 것뿐만 아니라 긁어온 데이터를 분석까지 진행합니다!형태소 분석기는 설정할 게 많은 konlpy 대신 kiwi를 사용했습니다.python 3.10.14 워드클라우드 환경이고 jupyter(.ipynb)로 진행했습니다.대부분의 설명은 코드의 주석으로 작성되어 있습니다.[작업 순서]1. 특정 영화를 검색해서(selenium)2. 리뷰를 원하는 만큼 수집하고(selenium)3. 리뷰 분석해서(kiwi, 워드클라우드 krwordrank)4. 워드 클라우드 만들고 저장하기(plt, wordcloud)우선 필요한 패키지를 한 번에 불러옵니다.패키지가 모두 불러와지는지 셀을 실행해서 확인하면서 진행해 주세요.패키지가 워드클라우드 정상적으로 불러와지면, 분석에 필요한 변수와 함수를 지정합니다.영화 이름이나 수집할 리뷰 개수는 원하는 대로 변경할 수 있습니다!이제 셀레니움을 이용해서 워드클라우드 와차피디아 사이트를 열어줍니다.영화를 검색하고 코멘트 더보기로 들어갑니다.이제 원하는 개수만큼 리뷰와 평점을 긁어옵니다.tqdm을 사용해서 다음처럼 진행도를 확인할 수 있습니다.우선 워드클라우드 평점을 한 번 확인해 볼까요!평균 4.2면 꽤 높네요!저는 혹시 몰라 df를 우선 저장하고 다시 불러와서 사용하겠습니다.이 부분은 생략해도 워드클라우드 됩니다.지금은 리뷰가 문장 형태이니, 필요한 명사 형태소(NNG 일반명사, NNP 고유명사, NP 대명사)만 추출해 줍니다.형태소 분석기는 kiwi를 사용했습니다. (kiwi 워드클라우드 github)필요한 명사류만 추출했으니 100개의 리뷰에서 자주 언급된 키워드만 추출합니다.저는 최소 빈도수를 5로 지정했습니다.추출한 키워드로 워드 클라우드를 만듭니다.plt로 시각화해서 워드클라우드 확인하고 png로 저장하고 마무리입니다.