본문 바로가기

텍스트마이닝

[R] R로 하는 텍스트 전처리2 ( 동시 출현 빈도 / tf-idf/ wordcloud2) (feat. 기리보이) 1. 가사 및 사용할 패키지 불러오기 song = readLines("기리보이 9집 가사.txt", encoding = "ANSI") head(song) # 문장 별로 존재 library(dplyr) library(tidytext) library(stringr) library(KoNLP) library(widyr) # 동시 출현 빈도 계산하기 위한 패키지 ""는 빈 줄을 의미 2. 동시 출현 빈도 동시 출현 빈도란? 그룹 단위 내에서 단어가 동시에 출현한 횟수 그룹단위는 각자 정의하기 나름 여기서는 가사 한 줄 내에서 단어가 동시에 출현한 횟수를 계산할 것 동시 출현 빈도를 계산하기 앞서 텍스트 전처리가 필요하다 1) 형태소 단위로 끊어진 데이터 생성 song = song[!(song == "")] # .. 더보기
[R] R로 하는 텍스트 전처리( tidytext / KoNLP / wordcloud2 ) T아카데미에서 R로 하는 텍스트 전처리라는 강의를 들은 후 중요한 내용을 다시 복습해보았다. 강의는 밑의 주소에서 확인할 수 있다. https://tacademy.skplanet.com/live/player/onlineLectureDetail.action?seq=166 R로 하는 텍스트 전처리 | T아카데미 온라인강의 1. 단정한 데이터란 무엇인지, 텍스트 데이터에서는 어떻게 접목되는지 이해한다. 2. 한글 데이터 분석에 필요한 Rmecabko / KoLNP 사용법을 알아보고, 한글 데이터 전.. tacademy.skplanet.com 1. 네이버 기사 댓글 불러오기 library(N2H4) # https://github.com/forkonlp/N2H4 library(dplyr) url = "https:.. 더보기