정규식 : 데이터의 간단한 및 복잡한 패턴을 검색하고 조작할 수 있는 식 *메타문자(검색 알고리즘을 지정하는 연산자)와 리터럴(검색중인 문자)로 구성됨.
ex. 정규식을 통한 한글, 영문, 특수문자 및 숫자 제거 방법 1. 한글 제거 ex. SELECT REGEXP_REPLACE('ㄱㄴㄷㄹㅁ(12)abc','[가-힣]','') AS RESULT FROM DUAL; 2. 숫자 제거 ex. SELECT REGEXP_REPLACE('ㄱㄴㄷㄹㅁ(12)abc','[0-9]','') AS RESULT FROM DUAL; 3. 영문 제거 ex. SELECT REGEXP_REPLACE('ㄱㄴㄷㄹㅁ(12)abc','[a-z]','') AS RESULT FROM DUAL; 4. 한글과 특수문자() 제거 ex. SELECT REGEXP_REPLACE('ㄱㄴㄷㄹㅁ(12)abc','[가-힣()]','') AS RESULT FROM DUAL; REGEXP_REPLACE 함수 - 주어진 문자열에서 특정 패턴을 찾아서 주어진 다른 모양으로 치환하는 함수 사용 예제 1 : 모든 숫자를 특수 기호로 변경하기 ‘[[:digit:]] 부분은 [:문자클래스:]의 형태로 표현을 합니다. 그리고 “문자 클래스”에 들어갈 수 있는내용은 alpha, blank, cntrl, digit, graph, lower, print, space, upper, xdigit의 종류가 있습니다. 많이 사용되는 것의 예를 들면 [:digit:]는 [0-9]의 의미이고 [:alpha:]는 [A-Za-z]와 같은 의미를 나타내고 [:space:]는 공백을 의미합니다. 사용 예제 2 : 특정 패턴을 찾아서 패턴을 변경하기 숫자를 찾아서 숫자 뒤에 ‘-*’를 추가하는 예제입니다. 비슷한 예로 아래 화면은 ip부분의 .(dot) 부분을 모두 삭제하고 출력하는 예입니다. 사용 예제 3 : 사용자에게 입력받은 문자 가운데 공백이 여러 개 들어 있을 경우 그 공백을 제거시키는 방법 예를 들어, 사용자 ID가 ‘aaa bbb’ 처럼 중간에 공백이 있을 경우 ‘aaa’와 ‘bbb’사이에 공백을 없애고 출력하는 방법입니다. 위 예제에서 {1,} 부분을 {1}로 해도 됩니다. 위 예에서 { } 내의 숫자는 앞 문자가 나타나는 횟수 또는 범위를 의미합니다. 예를 들어, a{5}의 의미는 ‘a’의 5번 반복인 aaaaa만을 의미합니다. 이 형태의 변형인 a{3,}은 ‘a’가 세 번 이상 반복인 aaa, aaaa, aaaaa, … 등을 의미합니다. 그리고 a{3, 5}의 의미는 aaa, aaaa, aaaaa를 의미하며 ab{2,3}은 뒤의 b가 두 번과 세 번 반복된 형태인 abb와 abbb를 의미합니다. 다음 예는 ‘abc bbb’에서 ( ) (괄호 사이는 공백)이 {2,} (두 칸 이상)인 것을 찾아서 “(공백을 제거)하라는 의미입니다. 그래서 그 결과로 공백이 한 칸인 첫 번째 ‘aaa bbb’값은 공백이 제거되지 않은 채 출력되었고 공백이 두 칸인 두 번째 ‘aaa bbb’은 공백이 제거되어 출력되었습니다. 다른 예를 한 가지 더 살펴보겠습니다. 이해가 되셨나요? 공백이 세 칸이여도. {2,}는 2칸 이상을 의미하다는 걸 잊지 않으셔야 합니다! 정규식을 잘 사용하면 SQL과 각 종 프로그램의 연산속도를 감소시키며 프로그램을 단순화 시킬 수 있습니다. 시간이 걸리더라도 한번씩 사용해보면 좋습니다.
자주 사용하는 Class Syntex는 아래와 같습니다.
자주 사용하는 응용편1. "["와 "]" 사이에 문자를 공백 처리하기, 괄호의 정의를 정하고 사이의 내용을 제거하면 됩니다. regexp_replace(s, "\\[.*\\]", "") 2. 숫자와 문자를 제외하고 모두 제거 regexp_replace(nm, '[^A-Z0-9 ]', '') 3. 공백이 2개 이상인 부분을 제거 REGEXP_REPLACE('Kontext is a website for data engineers.','[\s]{2,}', '') 4. 끝에 문자가 _(으로 시작하고)_(으로 사작하지 않는) 문자로 끝나는 것 regexp_replace('The_quick brown fox jumped over the_fence', '_[^_]*$','') |