TF-IDF를 반영한 word cloud 개선 서울 집값 뉴스 워드클라우드
페이지 정보
작성자 Bliss 작성일24-09-06 14:32 조회68회 댓글0건관련링크
본문
오늘 워드클라우드 설명한 코드는, 파이썬으로 워드 클라우드를 만드는 방법이다문제해결텍스트 파일 인코딩텍스트 파일 읽을때, 인코딩 지정2. 워드클라우드 한글 깨짐나눔고딕 폰트 다운로드 후, 폰트경로 지정3. 워드클라우드 작은 단어 크기 키우기scaling과 최소크기 지정오늘 사용한 중요한 라이브러리는 대충 위에 2개다위의 코드는, 텍스트 워드클라우드 파일을 읽어서, 그 텍스트 내용을 바탕으로 배경색이 하얀색이고 나눔고딕을 사용하고, 뭐 기타 설정이 적용된 워드 클라우드를 만들어 준다. 배경색이 하얀색으로 만드는 부분과 폰드 설정 부분은 아래와 같으며, 폰트의 경우 ,font_path 로 폰트의 경로를 지정해주는 것이기 떄문에, 워드클라우드 해당 파이썬 파일과 같은 곳에 NanumGothic.ttf 파일이 있어야한다. 뭐 대충 이렇게 같은 폴더 안에 있어야 한다는 뜻물론 경로를 지정해두는 것이다 보니, 본인이 다른 곳에 폰트 파일을 두거나 하면 본인이 알아서 경로를 찾아서 설정하면 된다.아 그리고, 폰트를 워드클라우드 나눔고딕을 쓰는 이유는 따로 폰트를 지정하지 않으면, 워드 클라우드가 한글이 따로 지정된 폰트가 없는 건지 깨진다. 그냥 네모난 박스들로만 가득하게 나온다는 뜻이런 개판이 된다는 뜻이다별 문제가 없으면 일단은 이렇게 나온다물론 이것도 그렇게 잘 나온 결과는 아니다, 워드클라우드 자연어 처리를 전혀 하지 않았기 때문인데, 이거에 대해서는 나중에 자세히 알아보도록 하고, 오늘은 뭐가 됐든 워드클라우드만 만들고 이러저리 건들여 보자위의 코드는 워드 클라우드의 작은 단어들을 조금 더 크게 보이도록 하게 조정하는 방법을 적용한 코드다. 핵심은이 두 워드클라우드 부분이다,작은 걸 좀 더 크게왼쪽의 사진이 작은걸 더 크게 나오게 조정한 워드클라우드로 자세히 보면, 단어들의 위치가 다른걸 알 수 있다. 다음은 임의로 딕셔너리를 직접 정의해, 이용하는 방식인데, 이는 원래의 위의 기존 코드들이 텍스트를 읽고 딕셔너리로 전환하여 워드클라우드 그 값을 토대로 워드클라우드를 만드는 것인데. 다만 최댓값이 1로 설정이 되어 있어, 하나의 단어를 너무 많이 넣는 경우에는 해당 단어가 워드 클라우드에 2개가 출력되는 참사가 발생한다. 그래서 임의로 자연어 처리도 할겸, 데이터를 분류를 하여, 대충 저렇게 워드클라우드 만들었다고 가정하여 저렇게 딕셔너리로 정의하고 만들면이렇게 나온다, 파일을 첨부하여 올릴테니 심심하면 해보면 된다.안에 첨부되어 있는 코드는 총 3개와, 나눔고딕폰트, 테스트용 텍스트파일 1개. 차례대로 1, 제일 기초적인 코드이고2, 가장 작은거를 보정하는 코드가 포함된 코드이고3은 딕셔너리를 이용하는 코드다
워드클라우드댓글목록
등록된 댓글이 없습니다.