1) 단어 빈도 분석
– 빈도 분석은 가장 간단하고 보편적인 방법입니다.
– 불용어를 제거하는 것이 필수적입니다.
– 워드클라우드 형태로 표현
2) 클러스터 분석
– 비슷한 주제의 문서를 그룹화하기 위해
– 분할군집분석과 구조군집분석이 일반적으로 사용된다.
– 분할 군집 분석에는 k-평균 군집 분석(유클리드 거리 또는 코사인 유사성 사용) 및 k-대표 값 군집 분석(이상값의 영향이 거의 없음)이 포함됩니다.
– 구조 군집 분석은 가장 가까운 개체부터 시작하여 개별 개체 간의 거리에 따라 조합하여 나무와 같은 계층 구조를 형성하는 방법입니다.
3) 테마 모델링
– 대용량 비정형 문서에서 주제 찾기
– 감성 분석이나 소셜 네트워크 분석과 같은 다른 분석 모델과 함께 사용되는 경우가 많습니다.
– LDA(Latente Dirichlet Allocation)는 단어의 순서는 중요하지 않고 단어의 존재만 중요하다는 가정하에 자주 사용됨
4) 감정 분석
– 양과 음의 요소와 그 정도를 구분하여 정량화
– 단어사전(Sentiment Dictionary) 기반 분석 및 지도학습 기반 분석(SVM, 회귀분석, 신경망, 나이브 베이즈, 의사결정 트리)
5) 연관성 분석
– 관련 단어의 동시 발생 기반 분석(같은 문서에서 두 단어가 얼마나 자주 함께 나타나는지), 유사도(코사인 유사도) 및 딥 러닝 방법(Word2Vec)이 단어 간 통계 방법으로 널리 사용됩니다.
– Word2Vec에는 CBOW(Continuous Bag of Words) 및 Skip Gram이 있습니다.

