🌐 해당 카테고리에 작성하는 글은 모두 안상준, 유원준 <딥 러닝을 이용한 자연어 처리 입문> 를 요약했습니다.
🌐 비전공자 개발자가 자연어 처리 대학원에 가고싶어 공부한 기록들입니다.
🌐 해당 실습은 구글의 collab을 통해 실시했습니다.
🌐 전 내용과 이어집니다.
https://onnnzeoz.tistory.com/101#
자연어 처리란? (+텍스트 전처리 기법들)
🌐 해당 카테고리에 작성하는 글은 모두 안상준, 유원준 를 요약했습니다.🌐 비전공자 개발자가 자연어 처리 대학원에 가고싶어 공부한 기록들입니다.🌐 해당 실습은 구글의 collab을 통해 실
onnnzeoz.tistory.com
02-02 정제(Cleaning) and 정규화(Normalization)
- 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다.
- 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다.
더 많은 변수를 사용해서 소문자 변환을 언제 사용할지 결정하는 머신 러닝 시퀀스 모델로 더 정확하게 진행시킬 수 있습니다.
02-03 어간 추출(Stemming) and 표제어 추출(Lemmatization)
눈으로 봤을 땐 서로 다른 단어들이지만, 하나의 단어로 일반화시킬 수 있다면 일반화시키는 작업
→ 단어의 수를 줄임
→ BoW(Bag of Words, 단어의 빈도수를 기반으로 문제를 풀고자 하는 자연어 처리 문제에서 사용됨)
02-03-01. 표제어 추출 : 단어들로부터 표제어를 찾아가는 과정
ex) am, are, is는 서로 다른 스펠링이지만 그 뿌리 단어는 be라고 볼 수 있습니다. 이때, 이 단어들의 표제어는 be라고 합니다.
방법 1 : 형태학적 파싱
형태소의 종류로 어간(stem)과 접사(affix)가 존재
1) 어간(stem)
: 단어의 의미를 담고 있는 단어의 핵심 부분.
2) 접사(affix)
: 단어에 추가적인 의미를 주는 부분.
NLTK에서는 표제어 추출을 위한 도구인 WordNetLemmatizer
from nltk.stem import WordNetLemmatizer
lemmatizer = WordNetLemmatizer()
words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])
WordNetLemmatizer는 입력으로 단어가 동사 품사라는 사실을 알려줄 수 있습니다.
lemmatizer.lemmatize('dies', 'v')
02-03-02. 어간 추출 : 정해진 규칙만 보고 단어의 어미를 자르는 작업
이 작업은 섬세한 작업이 아니기 때문에 어간 추출 후에 나오는 결과 단어는 사전에 존재하지 않는 단어일 수도 있습니다.
포터 어간 추출기(=포터스테머)는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 준수한 선택입니다.
단어의 정확한 정보가 필요하다면 Lemmatization을 씀( Stemming은 단어가 뭉개짐)
단순히 단어의 개수를 카운팅해서 결과를 얻고자 하는 분류(Classification) 같은 문제나 카운팅 정보가 들어간 TF-IDF 행렬을 사용하는 경우 Stemming을 씀.
Lemmatization으로 우선 단어를 통합시킨 다음에 Stemming으로 한 번 더 줄이는 사람도 있습니다.
but 어간 추출이나 표제어 추출은 전통적인 머신 러닝 시절에 많이 보이던 방법이고, 딥 러닝에서는 많이 사용되지 않음
'혼자 공부중 > NLP' 카테고리의 다른 글
이진분류(sigmoid) / 다중분류(softmax) 차이 (0) | 2025.06.27 |
---|---|
[AICE] AICE Associate 샘플 문항 예제 및 정답 + 문제풀이 (0) | 2025.06.17 |
자연어 처리 / 텍스트 전처리 기법3 (패딩, 원핫인코딩, 데이터 분리) (0) | 2024.08.03 |
자연어 처리 / 텍스트 전처리 기법2 (0) | 2024.07.30 |
자연어 처리란? (+텍스트 전처리 기법들) (0) | 2024.07.27 |