nlp(3)
-
LDA Latent Dirichlet Allocation
문서들을 보고, 단어들을 topic 별로 clustering 수행 이후, 각 문서들이 어느 topic에 더 유사한지를 계산하여 문서의 topic을 결정 문서의 주제를 알아내는 일이 중요한 곳에서 사용 검색 엔진, 고객 민원 시스템 여러 topic들이 혼재되어 있으며, topic들은 확률 분포에 기반하여 단어를 생성한다고 가정 LDA는 각 문서의 토픽 분포와 각 토픽 내의 단어 분포를 추정 토픽A : 사과 20%, 바나나 40%, 먹어요 40%, 귀여운 0%, 강아지 0%, 깜찍하고 0%, 좋아요 0% 토픽B : 사과 0%, 바나나 0%, 먹어요 0%, 귀여운 33%, 강아지 33%, 깜찍하고 16%, 좋아요 16% LDA는 토픽의 이름을 지정하지 않으나, 위 토픽 내 단어 분포를 보면, 토픽A는 과일에 ..
2021.08.16 -
LSA Latent Semantic Analysis
토픽 모델링(Topic Modeling) 문서 집합의 추상적인 주제를 발견하기 위한 통계적 모델 텍스트 본문의 숨겨진 의미 구조를 발견하기 위해 사용되는 텍스트 마이닝 기법 잠재 의미 분석(Latent Semantic Analysis, LSA) 토픽 모델링이라는 분야에 아이디어를 제공한 알고리즘 BoW에 기반한 DTM이나 TF-IDF는 기본적으로 단어의 빈도 수를 이용한 수치화 방법이기 때문에 "단어의 의미"를 고려하지 못한다 LSA = DTM의 잠재된(Latent) 의미를 이끌어내는 방법 선형대수학의 특이값 분해(Singular Value Decomposition, SVD)를 사용 특이값 분해(Singular Value Decomposition, SVD) A가 m × n 행렬 3개의 행렬의 곱으로 분해..
2021.08.16 -
Data Science: 자연어 처리 (Natural Language Processing)
자연어 처리? 한국어와 영어 등 우리가 평소에 쓰는 말을 자연어라고 하며, 이를 처리하는 분야가 자연어 처리임 자연어를 컴퓨터가 이해하도록 만들어 우리에게 도움이 되는 일을 수행하게 하는 것이 NLP thesaurus (시소러스) 표준국어대사전(:각각의 단어에 그 의미를 설명) 처럼, 일반적인 사전이 아닌 사전 기본적으로 유의어 사전 뜻이 같은 단어(동의어)나 뜻이 비슷한 단어(유의어) 가 한 그룹으로 분류 됨 시소러스의 문제점 수정이 힘듦 시대가 변하면 신조어가 생기고, 단어가 없어지기도 함 만드는데 많은 노력이 필요함 WordNet 에 등록된 단어는 20만개 이상 이를 피하기 위해 통계 기반 기법 신경망을 사용한 '추론 기반 기법'을 사용 -> 단어의 의미를 자동으로 추출 이는 영상 인식에서 feat..
2021.08.14