온라인 도구 활용법기초과정 1주차 - 워드 클라우드

Korea House Energy Assessor Association
커뮤니티
자유게시판
홈페이지 공지사항을 확인하세요.

온라인 도구 활용법기초과정 1주차 - 워드 클라우드

Echo 0 2

워드 워드클라우드 클라우드(WordCloud) : 텍스트 형태소 분석 및 시각화, 키워드 추출하는 방법에 대한 포스팅입니다.​✔️ 멀티잇 금융&마케팅 데이터분석2월 하반기에 수업을 시작하고, 드디어 자연어 처리에 입문하였습니다.​​형태소 분석​​1) 대한민국 헌법 텍스트 데이터 불러오기가지고 있는 대한민국헌법 파일(constitution.txt)의 파일 경로를 불러왔습니다.text 출력 결과​2) MeCab 형태소 분석기 사용여기서 추출된 명사 3609개는 단어의 중복을 포함한 총 누적 개수입니다.​​형태소에 대한 설명참고로, Okt로도 가능하나 결과가 워드클라우드 조금 다르게 나오며 시간이 좀 더 걸리는데요.실무에서는 거의 MeCab으로 사용한다고 합니다.Mecab으로는 3609개, Okt로는 3882개로 형태소 분석이 되었습니다.​​​형태소 빈도수 구하기​이제, 분석된 형태소의 빈도수를 시각화해보겠습니다.​1) '명사'형태소의 빈도수 분석 Counter(nouns)Counter(nouns) 함수는 주어진 텍스트에서 명사(nouns)를 추출하여 각 명사의 출현 빈도를 계산하는 함수입니다. 이 함수는 파이썬의 collections 모듈에 있는 Counter 클래스를 사용합니다.key, value 쌍의 딕셔너리 형태로 빈도수가 나타납니다.전체 문서에서 워드클라우드 '조'가 136개, '법률'이 121개 나타났다는 의미입니다.​​2) 부을 용어 제거한글에서 조사, 관사, 접속사 등 의미를 전달하지 않는 불용어는 제거해 줍니다.불용어에 대한 설명위에서 만들어 놓은 nouns=mecab.nouns(text) 변수에 저장된 값 중에글자의 길이가 1글자를 넘어가는 (2글자 이상) 글자만 비어있는 result라는 리스트에 넣어줍니다. ​3) 명사 형태소 빈도수 분석다시 counter( ) 함수를 통해 명사로만 이루어진 각각의 값의 빈도수를 구해줍니다. ​​wordcloud 워드클라우드 시각화WordCloud는 텍스트 데이터에서 가장 빈번하게 등장하는 단어들을 시각화하여 보여주는 도구나 기법입니다. 이를 통해 텍스트 데이터의 중요한 주제나 특징적인 내용을 한눈에 파악할 수 있습니다.​보통 WordCloud는 단어의 빈도수를 기준으로 생성됩니다. 빈도수가 높은 단어일수록 크고 눈에 잘 띄게 표시되며, 빈도수가 낮은 단어일수록 작고 가려지거나 희미하게 표시됩니다.​1) wordcloud 설치wordcloud 라이브러리를 설치합니다.​​git hub에서 wordcloud에서 제공하는 함수 등을 검색2) 라이브러리 워드클라우드 importwordcloud를 통해 형태소들을 시각화하고, 이미지로 바로 저장할 수 있습니다.그러나 모니터상에 출력은 되지 않는데요, 만약 결과물을 바로 확인하고 싶은 경우 matplotlib.pyplot 을 가져와야 합니다.git hub에서 WordCloud 함수 import 하는 방법​3) 한글 폰트 설치위 코드는 나눔 바른 고딕체 폰트입니다.폰트를 설치하고, 설치된 경로를 file_path라는 변수에 저장해 주세요.​​4) 형태소 시각화 : wordcloud( )이 외에도 여러 파라미터 있습니다.random_state를 지정하지 워드클라우드 않으면 실행할 때마다, 글씨의 위치가 바뀝니다.​이렇게 이미지를 생성하고 저장은 했으나, 모니터 상에서는 출력 기능이 없다고 했죠?그래서 이때 plt.imshow( )라는 함수를 통해 모니터에 출력을 할 건데요.이 상태로 바로 출력을 하면 아래처럼 이미지에 축이 같이 보입니다.그래서 plt.axis('off')를 같이 설정해서 출력을 해주시면,깔끔하게 이미지만 출력해서 확인이 가능합니다.​​​​​워드 클라우드 폰트 색상은 아래 링크에서 확인해서 수정하실 수 있습니다.​#워드클라우드폰트색상 #워드클라우드글씨색상 color 워드클라우드 mab 확인Choosing Colormaps in Matplotlib — Matplotlib 3.8.3 documentationUsing Matplotlib Colors Choosing Colormaps in Matplotlib Choosing Colormaps in Matplotlib Matplotlib has a number of built-in colormaps accessible via matplotlib.colormaps . There are also external libraries that have many extra colormaps, which can be viewed in the Third-party colormaps section of ...matplotlib.org 5) 보충 : 워드클라우드 wordcloud.generate( )이 외에, 가지고 있는 text 파일을 바로 시각화할 수도 있기는 합니다.​​​​지금까지 워드 클라우드(WordCloud) : 텍스트 형태소 분석 및 시각화, 키워드 추출하는 방법에 대한 포스팅이었습니다.​✔️ 본 포스팅은 멀티캠퍼스의 멀티잇(금융&마케팅 데이터분석)을 수강하며 작성하는 포스팅입니다.​#워드클라우드 #위드클라우드#내일배움카드 #부트캠프 #국비지원교육 #코딩학원 #국민취업지원제도​ #워드클라우드방법 #텍스트시각화 #태그시각화 #키워드추출 #키워드시각화 #wordcloud #형태소분석 #데이터시각화 #데이터분석 #자연어처리 #인포그래픽 #텍스트분석 #키워드분석

0 Comments