정규 표현식

메타 문자

주요 메타 문자

. : 임의의 한 문자
^x : x로 시작하는 문자열
$x : x로 끝나는 문자열
x* : x 0번이상 반복
x+ : x 1번이상 반복
x? : x 0 또는 1개 존재
abc|123 : abc 또는 123 하나 선택 
[x] : x문자 1개 일치
[^x] : x문자 제외(부정)
[a-z] : a~z 문자 1개
[A-Z] : A~Z 문자 1개
[0-9] : 0~9 숫자 1개
x{n} : x가 n번 연속
x{n,} : x가 n번 이상 연속
x{m,n} : x가 m~n번 사이 연속

이스케이프 메타문자

\s : 공백문자
\d : 숫자 [0-9]
\D : 숫자 제외
\w : 영문자, 숫자, _ , [0-9a-zA-Z_]
\n : 줄바꿈
\t : 탭문자

정규표현식 모듈 : re

findall('pattern', string)

match(pattern, string, flags)

sub(pattern, repl, string)

compile(pattern)

텍스트 전처리

텍스트 전처리 함수 만들기

참고 : 레이블(label) 분류 만들기