Search
🕙

텍스트 정규화 #1 — 공백 차이

URL
생성 일시
2025/04/24 01:06
최종 편집 일시
2025/04/24 01:07
태그
Data
파일과 미디어

1. 문제 상황 소개

현대의 데이터 처리 환경에서는 텍스트 데이터를 분석하거나 전처리하는 과정에서 수많은 문제가 발견될 수 있다. 이 중에서도 상대적으로 단순해 보이지만 예측하지 못한 오류나 혼동을 유발하는 대표적인 문제가 바로 공백(white space) 처리 문제다. 예를 들어, "Hello World"라는 문자열과 "Hello World "라는 문자열이 있다고 하자. 두 문자열은 눈으로 보기에는 거의 동일하게 느껴진다. 하지만 실제로는 후자의 문자열 끝에 공백 문자가 추가로 포함되어 있다.