[그래픽] 워드 클라우드로 데이터마이닝 시각화 흉내내기
페이지 정보
작성자 Hera 작성일24-09-15 13:12 조회108회 댓글0건관련링크
본문
엊그제 워드클라우드 만들기 리뷰한 IT비전공자를 위한 돈 버는 파이썬코딩 책과 인터넷의 어떤 블로거의 코드를 참조이제는 뭔가 좀 도움되는 일을 해보기로 했습니다.그것이 얼마나 도움이 될지는 모르겠지만. 남들은 신박한 알고리즘을 개발하지 않더라도그런 수학/통계/알고리즘적 머리가 아니라 다른쪽으로 머리를 잘쓰면앉아서 패시브수익이 들어올 수 있게 한다는것을보고야 말았습니다.물론 매크로를 돌리든가 아니면 어떤 수를 써서, 마케팅 이라는 미명아래 인터넷에서 짤짤이처럼 돈을버는 사람이 꽤 많다는건 알고있었습니다.그리고 그 짤짤이의 금액이 꽤나 많아질 수 있다는 것도. 알고리즘 공부도 공부인데알고리즘에 지칠때면 그저께 리뷰를 올린 비현코님의 책을 따라서나의 인생에 직접적으로 도움이되는 워드클라우드 만들기 코드를 짜보기로 했습니다.그 첫번째가 바로 뉴스 내용을 검색하여 워드클라우드로 만들기 입니다. 워드클라우드 이걸 왜하느냐? 뉴스를 하나하나 다 읽어보기 힘들어요.부동산 뉴스는 정리를 하고는 있습니다. 근데 그게 좀 늦어요.지금 5월거부터 해야되나 그럴텐데. 정리하는데 몇시간 걸리다보니 자꾸 미루고 미루고.뉴스 정리할 시간도 없다는건 읽을 시간도 부족하다는것. 어찌어찌 뉴스가 눈에 띌때마다 블로그에 임시저장을 해놓고 있기는 한데, 이러다가는 뉴스 수집이 매우 편향됩니다.놓치는 뉴스가 많아요.바빠서 네이버 뉴스 못볼때가 많거든요이렇게 바쁜데 뉴스를 언제 읽습니까.못읽지.그럼 못읽으면 시장돌아가는걸 못봅니다.어차피 뉴스를 통해서 시장돌아가는걸 보는건아니고오히려 그런걸 기대했다간 망하기 워드클라우드 만들기 십상이지만그래도 분위기는 알아야죠 분위기는.감떨어져요.그래서, 아래와 같은 것을 만들었습니다. 1. 매일 또는 매주, 내 멋대로 기간 중 내가 원하는 뉴스를 검색한 후 2. 그 뉴스 리스트를 엑셀파일로 만들어링크와 제목, 내용을 저장한다. 이렇게 되면 나중에 일일이 뉴스 안찾아보고 엑셀파일만 보면 됩니다. 그러나 이 엑셀도 보기 귀찮다! 이건 언제다보냐! 보는것만으로 어지럽다!! 라고 할 수 있습니다. 왜냐면, 엑셀은 바로 이렇게 생겼으니까요. 그래서, 3. 더욱 한눈에 보기 좋은 워드클라우드로 만들고하루동안 어떤일이 있었는지, 한주동안 어떤일이 있었는지 쓱 보고 지나가자. 라는게 목적입니다. 워드클라우드 만들기 코딩 인터넷에서 웹크롤링을 해서 그걸 워드클라우드로 만드는건 이미 뭐 새로운것도 아니고 많은 분들이코드를 짜서 고대로 올려놓고 있습니다.이게 뭐 진짜 직접적으로 돈이 되는 비기라면 코드를 안올려놓고 파실텐데(그런 코드를 파는 사람도 봤습니다.코드 실행파일 하나에 50만원에 말이지요.사람들이 사려고 줄섰더군요) 이건 뭐 그런건 아니니 공짜로 공개한 사람이 많습니다.저는 그제 리뷰한 비현코 저자의 책을 보고 따라하다,저자는 클래스 101을 가지고 했는데 저는 네이버 뉴스를 크롤링하고 싶고, 그런 면에서 저자의 책을 따라하다보니 안되더군요.그래서 크롤링 부분은 인터넷에서 다른 어떤 뛰어난 블로거들의 것을 베꼈고 비현코저자님의 워드클라우드 만들기 코드에서는 워드클라우드를 생성하는 것을 따왔습니다. 두 코드를 연결하는데는변수를 좀 고쳐주고, 반복문을 하나 추가해주고, 저장하는 파일명을 좀 바꿔주고, 워드클라우드 파일이 튀어나오는 그림의 크기, 배경색, 폰트 등을 바꿔주고, 저자가 쓰는 폰트는 제 컴에서 작동이 잘 안돼서 그냥 제 컴에 있는 다른 폰트로 폰트 path를 설정해주고,이정도 작업만 했습니다.그럼 실행을 시키면, 뉴스를 검색하고싶은 키워드를 넣습니다.저는 집값을 넣었습니다. 그러면,네이버 뉴스에서 페이지가 나오잖아요?몇페이지부터 몇페이지까지 긁어올건지,말하라고 합니다. 저는 1부터 3페이지까지 입력했고그러면 위에서 봤던 이런 엑셀파일이 생기고, 이렇게 검색한 키워드 별로 뉴스모음 엑셀파일과 워드클라우드 워드클라우드 만들기 그림파일이 생성됩니다.생성된 그림파일은...이렇네요. 집값 이라고 검색했는데죄다 서울이야기에 하락한다는 이야기금리인상이 보이고 관망세, 금리 부담, 인상 등등 별로 좋은이야기는 없습니다. 그와중에 재건축이 왜? 뉴스가 꽤 나왔나보군요꽁꽁도있네요. 꽁꽁. 별 인사이트는없지만 자기전에 한번씩 보고자거나다음날 아침에 전날 뭐있었는지 보기에는 음....큰 쓸모는 없지만들이는 노력이 매우매우 작으니 할만하지 않을까요? 참고로 주식시장에 대해서 뉴스를 검색하니 이렇게 되는군요. 별 관심가는 이야기가 없네요 주식시장은. 개선점 저거 코드 짜는데어제 점심시간 한시간 거의 다썼습니다.점심때 짜고 일하러가느라 아쉬운점을 다 마무리짓지 못했습니다아쉬운점은 뭐냐면현재는 워드클라우드를 제목만 가지고 만드는데 기사 내용 전체를 워드클라우드 만들기 가지고 만들고 싶습니다. 워드클라우드에 집어넣는 변수를 좀 고치면 될것같은데 아직 못했네요. 근데 제목을 넣을때보다 인사이트가 더 있을지? 원래 책에서 가져온 코드는, 파일 저장이 wordcloud라고만 되어서 새로 만들면 기존건 삭제되는거였는데, 그걸 제가 고쳐서, 그래도 키워드명(집값, 주식시장 등)으로 튀어나오게 해놨습니다. 근데 파일명(엑셀과 그림)에 날짜까지 붙여서 튀어 나오게 하고싶어요.지금은 뉴스를 긁어올때, 페이지를 지정하게 되어있는데 날짜를 지정하면 더 좋을 것 같기도 합니다. 이건 좀 생각해봐야할듯. 또, 이걸 저만쓰면 그냥 쓰면되는데 exe파일로 만들면 동료들에게 배포할 수 있습니다. 그럼 좋은일 아닌가요? 워드클라우드 만들기 사실 이 블로그 포스팅을 하기전에 exe파일로까지 만들어보려다가 잘 안돼서, 그건 나중에 하기로하고 일단 포스팅을 합니다. 이 만든건 나중에 회사에서 보고서쓰거나발표자료 만들때 쓸만할 것 같습니다. 업무력을 증강시키는 행위를 하다니. 놀랍군요. 자 이건 했고,그럼 그 다음은 뭐지? 이메일자동화?그 전에 뭐 하나 더 있던데요.그건 한시간만에 짜진 못할 것 같고며칠 걸릴 것 같습니다.그리고 그것까지 하고나면 대망의 비트코인 자동매매겠군요.가을이 오기전에 완성해야겠습니다. 이번에는 좀 꼭!
댓글목록
등록된 댓글이 없습니다.