정규식 \b 의 사용_단어 경계 구분
\d+\??\d+?(, |, and )\d{1,2}[A-Z]?(\.\d{1,2}[A-Z]?)*( ?\[ ?\w+ ?\])*이 정규식을 사용해 데이터 프로세싱 작업을 하는중인데,뜬금없이 1982, 1984와 같은 연도 부분까지 파싱이 되어버렸다. 문제가 뭔지 보니 정규식에서 연도까지 잘못 처리할 수 있다는 걸 알게되어\b\d{1,2}[A-Z]?\b(, |, and )\b\d{1,2}[A-Z]?\b(\.\d{1,2}[A-Z]?\b)*( ?\[ ?\w+ ?\])*위와 같이 단어 경계 구분을 위해 \b를 추가해줬다. \b의 기능은 아래와 같다. \\b의 기능단어 경계 : \b는 공백, 문장 부호, 또는 문자열의 시작과 끝과 같은 위치에서 단어와 비단어(공백, 문장 부호, 숫자와 문자가 아닌 것) 사이의 경계를 ..
2024. 8. 27.