Q&A
HOME >> 커뮤니티 >> Q&A

[그래픽] 워드 클라우드로 데이터마이닝 시각화 흉내내기

페이지 정보

작성자 Hera 작성일24-09-15 13:12 조회62회 댓글0건

본문

엊그제 워드클라우드 만들기 리뷰한 IT비전공자를 위한 돈 버는 파이썬코딩 책과 인터넷의 어떤 블로거의 코드를 참조이제는 뭔가 좀 도움되는 일을 해보기로 했습니다.그것이 얼마나 도움이 될지는 모르겠지만. ​남들은 신박한 알고리즘을 개발하지 않더라도​그런 수학/통계/알고리즘적 머리가 아니라 다른쪽으로 머리를 잘쓰면앉아서 패시브수익이 들어올 수 있게 한다는것을보고야 말았습니다.​물론 매크로를 돌리든가 아니면 어떤 수를 써서, 마케팅 이라는 미명아래 인터넷에서 짤짤이처럼 돈을버는 사람이 꽤 많다는건 알고있었습니다.그리고 그 짤짤이의 금액이 꽤나 많아질 수 있다는 것도. ​알고리즘 공부도 공부인데알고리즘에 지칠때면 그저께 리뷰를 올린 비현코님의 책을 따라서나의 인생에 직접적으로 도움이되는 워드클라우드 만들기 코드를 짜보기로 했습니다.​그 첫번째가 바로 뉴스 내용을 검색하여 워드클라우드로 만들기 입니다. ​워드클라우드 이걸 왜하느냐? 뉴스를 하나하나 다 읽어보기 힘들어요.부동산 뉴스는 정리를 하고는 있습니다. 근데 그게 좀 늦어요.​지금 5월거부터 해야되나 그럴텐데. 정리하는데 몇시간 걸리다보니 자꾸 미루고 미루고.​뉴스 정리할 시간도 없다는건 읽을 시간도 부족하다는것. 어찌어찌 뉴스가 눈에 띌때마다 블로그에 임시저장을 해놓고 있기는 한데, 이러다가는 뉴스 수집이 매우 편향됩니다.놓치는 뉴스가 많아요.​바빠서 네이버 뉴스 못볼때가 많거든요​이렇게 바쁜데 뉴스를 언제 읽습니까.못읽지.그럼 못읽으면 시장돌아가는걸 못봅니다.​어차피 뉴스를 통해서 시장돌아가는걸 보는건아니고오히려 그런걸 기대했다간 망하기 워드클라우드 만들기 십상이지만​그래도 분위기는 알아야죠 분위기는.감떨어져요.​그래서, ​아래와 같은 것을 만들었습니다. 1. 매일 또는 매주, 내 멋대로 기간 중 내가 원하는 뉴스를 검색한 후 ​2. 그 뉴스 리스트를 엑셀파일로 만들어링크와 제목, 내용을 저장한다. ​ 이렇게 되면 나중에 일일이 뉴스 안찾아보고 엑셀파일만 보면 됩니다. 그러나 이 엑셀도 보기 귀찮다! 이건 언제다보냐! 보는것만으로 어지럽다!! 라고 할 수 있습니다. 왜냐면, ​엑셀은 바로 이렇게 생겼으니까요. ​그래서, ​3. 더욱 한눈에 보기 좋은 워드클라우드로 만들고하루동안 어떤일이 있었는지, 한주동안 어떤일이 있었는지 쓱 보고 지나가자. ​라는게 목적입니다. 워드클라우드 만들기 ​코딩 인터넷에서 웹크롤링을 해서 그걸 워드클라우드로 만드는건 이미 뭐 새로운것도 아니고 많은 분들이코드를 짜서 고대로 올려놓고 있습니다.​이게 뭐 진짜 직접적으로 돈이 되는 비기라면 코드를 안올려놓고 파실텐데(그런 코드를 파는 사람도 봤습니다.코드 실행파일 하나에 50만원에 말이지요.사람들이 사려고 줄섰더군요) ​이건 뭐 그런건 아니니 공짜로 공개한 사람이 많습니다.​저는 그제 리뷰한 비현코 저자의 책을 보고 따라하다,​저자는 클래스 101을 가지고 했는데 저는 네이버 뉴스를 크롤링하고 싶고, 그런 면에서 저자의 책을 따라하다보니 안되더군요.​그래서 크롤링 부분은 인터넷에서 다른 어떤 뛰어난 블로거들의 것을 베꼈고 ​비현코저자님의 워드클라우드 만들기 코드에서는 워드클라우드를 생성하는 것을 따왔습니다. ​두 코드를 연결하는데는변수를 좀 고쳐주고, 반복문을 하나 추가해주고, 저장하는 파일명을 좀 바꿔주고, 워드클라우드 파일이 튀어나오는 그림의 크기, 배경색, 폰트 등을 바꿔주고, 저자가 쓰는 폰트는 제 컴에서 작동이 잘 안돼서 그냥 제 컴에 있는 다른 폰트로 폰트 path를 설정해주고,​이정도 작업만 했습니다.​그럼 실행을 시키면, 뉴스를 검색하고싶은 키워드를 넣습니다.저는 집값을 넣었습니다. ​그러면,네이버 뉴스에서 페이지가 나오잖아요?몇페이지부터 몇페이지까지 긁어올건지,말하라고 합니다. 저는 1부터 3페이지까지 입력했고​그러면 위에서 봤던 이런 엑셀파일이 생기고, 이렇게 검색한 키워드 별로 뉴스모음 엑셀파일과 워드클라우드 워드클라우드 만들기 그림파일이 생성됩니다.​생성된 그림파일은...​​이렇네요. ​집값 이라고 검색했는데죄다 서울이야기에 하락한다는 이야기금리인상이 보이고 관망세, 금리 부담, 인상 등등 별로 좋은이야기는 없습니다. 그와중에 재건축이 왜? 뉴스가 꽤 나왔나보군요​꽁꽁도있네요. 꽁꽁. 별 인사이트는없지만 자기전에 한번씩 보고자거나다음날 아침에 전날 뭐있었는지 보기에는 음....​큰 쓸모는 없지만들이는 노력이 매우매우 작으니 할만하지 않을까요? ​참고로 주식시장에 대해서 뉴스를 검색하니 이렇게 되는군요. 별 관심가는 이야기가 없네요 주식시장은. ​개선점 저거 코드 짜는데어제 점심시간 한시간 거의 다썼습니다.점심때 짜고 일하러가느라 아쉬운점을 다 마무리짓지 못했습니다​아쉬운점은 뭐냐면​현재는 워드클라우드를 제목만 가지고 만드는데 기사 내용 전체를 워드클라우드 만들기 가지고 만들고 싶습니다. 워드클라우드에 집어넣는 변수를 좀 고치면 될것같은데 아직 못했네요. 근데 제목을 넣을때보다 인사이트가 더 있을지? ​원래 책에서 가져온 코드는, 파일 저장이 wordcloud라고만 되어서 새로 만들면 기존건 삭제되는거였는데, 그걸 제가 고쳐서, ​ 그래도 키워드명(집값, 주식시장 등)으로 튀어나오게 해놨습니다. 근데 파일명(엑셀과 그림)에 날짜까지 붙여서 튀어 나오게 하고싶어요.​지금은 뉴스를 긁어올때, 페이지를 지정하게 되어있는데 날짜를 지정하면 더 좋을 것 같기도 합니다. 이건 좀 생각해봐야할듯. ​또, 이걸 저만쓰면 그냥 쓰면되는데 exe파일로 만들면 동료들에게 배포할 수 있습니다. 그럼 좋은일 아닌가요? 워드클라우드 만들기 사실 이 블로그 포스팅을 하기전에 exe파일로까지 만들어보려다가 잘 안돼서, 그건 나중에 하기로하고 일단 포스팅을 합니다. ​​이 만든건 나중에 회사에서 보고서쓰거나발표자료 만들때 쓸만할 것 같습니다. ​업무력을 증강시키는 행위를 하다니. 놀랍군요. ​자 이건 했고,그럼 그 다음은 뭐지? 이메일자동화?​그 전에 뭐 하나 더 있던데요.그건 한시간만에 짜진 못할 것 같고며칠 걸릴 것 같습니다.​그리고 그것까지 하고나면 대망의 비트코인 자동매매겠군요.가을이 오기전에 완성해야겠습니다. 이번에는 좀 꼭! ​

댓글목록

등록된 댓글이 없습니다.

상호명 신성사 | 대표자 박한규 | 사업자등록번호 106-50-64457 | TEL 02-713 –3691 | FAX 02 - 716 - 8564 | ADD 서울특별시 용산구 원효로58길 17 나우빌딩 2층 | E-mail help@sscom.co.kr

Copyrightsⓒ2016 신성사 All rights reserved.