컴퓨터비전 영상처리 - keompyuteobijeon yeongsangcheoli

다양한 폭행 및 비폭행 동영상으로 학습된 딥러닝을 이용하여 동영상 기반 폭행사건을 검출한다. 특히 NVIDIA Jetson TX2에서 실시간 검출이 가능할만큼 경량화된 동영상 검출 모델을 개발하였다.

목표물 추적

2종류 이상의 measurement가 가능한 상황에서 최대화된 위험함수 값을 최소화 시키려는 minimax 이론에 근거해 복잡한 영상에서도 강인한 목표물 추적을 할 수 있다.

▼ 우사인볼트 추적

손 동작 인식

키보드, 마우스, 리모컨 등의 접촉식 인터페이스를 대체/보완하는 비접촉식 인터페이스에 대한 연구가 활발히 진행되고 있다. 특히 손의 모양, 포즈 변화 및 궤적을 바탕으로 한 손 동작 인식에 의한 인터페이스가 대표적이다.

컴퓨터비전 영상처리 - keompyuteobijeon yeongsangcheoli

▼ 깊이영상을 이용한 손 동작 인식 (Hand Mouse)

다시점 및 3차원 데이터 기반 인식

다시점 기반으로 3차원 데이터를 획득하고, 다시점 또는 3차원 데이터를 기반으로 립리딩, 손 동작 인식, 얼굴 인식 등을 수행한다.

컴퓨터비전 영상처리 - keompyuteobijeon yeongsangcheoli

특징점 매칭 및 영상 정합

서로 다른 시점(viewpoint)에서 촬영된 두 영상을 기하학적으로 정합하기 위해서, 영상의 특징점 검출, 특징점 매칭, 기하학적 변환 추정, 영상 변환을 차례로 수행한다. 영상 정합은 파노라마 영상 모자이크, 3D 모델링, 영상 향상 등에 이용된다.

컴퓨터비전 영상처리 - keompyuteobijeon yeongsangcheoli

번짐 제거(Deblurring) 및 화질 개선

영상의 화질 저하 요인 중, 카메라 노출 시간 동안의 카메라 또는 물체의 흔들림에 의한 동작 번짐(motion blur)이 있는데, 이를 제거하는 비교적 효과적인 방법이 잡음영상을 추가로 사용하는 번짐 제거 방법이다.

사람이 눈으로 사과가 반사된 빛을 받아들이고, 뇌에서 이것을 인식하여 '사과'라는 객체를 인식하는 과정을 컴퓨터에서 이루어지게 한다고 생각하면 된다. 사람의 눈은 '카메라'가 뇌는 '알고리즘' 등으로 컴퓨터에서는 대체되어 이러한 과정을 진행한다.

 

컴퓨터 비전에서는 주로 밝기, 색상, 모양 등의 영상정보를 활용하고, 이러한 정보들을 여러 알고리즘들에 적용하여 사물을 인식한다.

말로는 굉장히 쉽지만 실제로 영상을 받아보면 조명에 따라 혹은 카메라의 시점에 따라서 동일한 피사체에서 값은 다른 다양한 영상들이 나올 수 있기 때문에 고려할 부분이 상당히 많다. 

 

컴퓨터 비전과 흔히 혼용되어 많이 사용되는 용어로 영상 처리(Image Processing)이 있다. 

영상 처리는 말 그대로 영상을 입력받고, 입력받은 영상에 잡음 처리, 화질 개선, 마스킹 등의 여러 처리를 한 뒤에 영상을 출력하는 과정이다. 그렇기에 객체 등을 인식하는 컴퓨터 비전 과정의 전처리 과정으로 볼 수 있다. 

하지만, 사실 컴퓨터 비전과 영상 처리를 명확하게 구분하는 것이 애매하기 때문에 보통 컴퓨터 비전과 영상 처리는 많이 혼용되어 사용한다.

 

* 컴퓨터 비전, Image Processing 에서 '영상'은 한 장의 frame 즉, 사진(Image)의 의미로 사용된다.

  '영상' : Image    ,     '동영상' : Video  

 

 


영상 기초

 

디지털 카메라에서의 영상 획득 과정은 다음과 같다.

피사체로부터 반사된 빛 - 렌즈 - 이미지 센서 - ADC - ISP - 사진 파일

 

먼저 피사체로부터 반사된 빛이 렌즈를 거치면서 센서에 모이게 된다. 이때 이미지 센서에는 포토 다이오드가 평면으로 배열되어 있기에 들어온 빛을 2차원 상 밝기 정도 데이터로 표현한다. 이 아날로그 데이터를 ADC를 통해 디지털 데이터로 변환한다.

* ADC (아날로그-디지털 변환기) : 아날로그 데이터를 디지털 데이터로 변환하는 장치 (Analog-to-Digital)

 

이렇게 디지털 데이터로 변환된 데이터는 ISP로 전달된다. ISP에서는 노이즈 제거 등의 처리를 하여 2차원의 디지털 이미지를 생성한다.

*ISP(Image Signal Processor)

 

이러한 과정을 통해 우리는 카메라를 통해 들어오는 빛들을 디지털 이미지로 받아들일 수 있게 된다.

 


픽셀(Pixel) : 영상을 구성하는 최소 단위

 

픽셀이란, 영상을 구성하는 최소 단위이다. 

Picture + Element 이며, '화소' 라고도 부른다. 흔히, 카메라나 TV 광고에서 나오는 몇 화소~ 의 그 화소이다.

 

컴퓨터에서는 영상을 이 픽셀의 배열로 표현한다. 예를 들어 가로 w, 세로 h 크기의 영상은 아래와 같이 표현된다.

컴퓨터비전 영상처리 - keompyuteobijeon yeongsangcheoli
가로 w , 세로 h의 영상 표현

 

여기서 가로 w , 세로 h란,

가로 픽셀 크기 w , 세로 픽셀 크기 h를 의미한다.

 

이러한 배열은 xy좌표계로 나타낼 수 있는데, x좌표는 left-right, y좌표는 top-bottom 의 방향으로 증가하므로, 

아래와 같은 4사분면의 평면으로 생각할 수 있다.

 

컴퓨터비전 영상처리 - keompyuteobijeon yeongsangcheoli
가로 w , 세로 h의 이미지의 xy좌표계

 

*  left-top Origin

   : 위 사진처럼 왼쪽 위를 원점으로 하는 좌표계를 사용하는 것을 left-top Origin을 사용한다고 표현한다.

 

* Zero-based

  : 위 사진들처럼 좌표의 시작을 0부터 표현하는 방식을 Zero-based (0-기반)을 사용한다고 표현한다.

 

컴퓨터 비전을 할 때 대부분 left-top Origin과 Zero-based를 사용한다.

 

이렇게, 이미지를 나타내면 특정 픽셀을 2차원 상의 특정 좌표로 표현할 수 있다.

즉, 픽셀 좌표를 (x,y)로 나타낼 수 있다는 뜻이다.

( x의 정의역은 0 ~ (w-1) , y의 정의역은 0 ~ (h-1) )

 

이미지는 픽셀의 배열이고, 이 픽셀은 (x,y)의 좌표로 나타낼 수 있기 때문에 영상을 수식으로 표현할 때는 보통 함수의 형태를 사용한다.

(입력) x좌표, y좌표 -> (출력) 픽셀값

 

즉, 우리가 영상을 f라고 표기하면, 특정 픽셀값을 f(x,y)로 표현한다는 의미이다.

 


이러한 픽셀의 2차원 배열은 xy좌표계 외에도 표현할 수 있는 방법이 1가지 더 있는데, 바로 행렬이다.

컴퓨터 비전에서는 영상을 2차원 배열뿐 아니라 행렬로도 많이 표현하는데, 이러한 행렬로 표현할 경우 영상을 처리하는 알고리즘을 행렬 이론을 적용하여 구현하는 등 수학적으로 표현하고 계산하기 편리하기 때문이다.

1. 의료 분야(방사선, 초음파): X-ray, CT, MRI, PET

2. 방송 통신 분야: 디지털 방송 서비스, 영상의 화질 향상, 다양한 특수 효과

3. 공장 자동화 분야: 생산된 제품의 품질 검사

4. 애니메이션 및 게임 분야: 캐릭터 모델링, 고화질의 렌더링

5. 기상 및 지질 탐지 분야: 날씨 예측, 자연재해 예방, 멀티스펙트럴 영상(multispectral image), 항공사진

6. 기타: 디지털 영상의 저작권을 보호하기 위한 디지털 워터마킹기술, 3차원 장면 정보를 추출하는 계산 사진학(computational photography), 비밀 정보 통신을 위한 스테가노그라피

...

 

보통 전기전자공학에서 영상을 다루는 분야는 크게 영상처리(Image Processing) 분야와 컴퓨터 비전(Computer Vision) 분야가 있다.

 

영상처리 분야는 주로 영상의 해상도 향상, 압축, 전송 등을 연구하고 통신과 연관되어 있다고 볼 수도 있다. 하지만, 컴퓨터 비전은 영상으로부터 특정한 정보를 추출하는 것으로 주로 제어, 로봇, 자동화 분야에서 사용된다.

 

쉽게 말하면, 영상처리는 보다 선명하고 좋은 영상을 보기위한 연구를 하는 분야라면 컴퓨터 비전은 영상에서 필요한 정보를 뽑아내는 기술을 연구하는 분야이다. 같은 영상을 다루지만 추구하는 목적이 다르다.

 

컴퓨터 비전이 적용되어 일상생활에서 쉽게 볼수 있는 것은 지문인식 장치와 주차장의 자동차 번호판 인식 장치이다. 자동차 번호판 인식 장치는 움직이는 동영상에서 자동차의 번호판만을 찾아내고 그 번호판의 영상을 숫자로 변환시키는 복잡한 컴퓨터 비전 기술이 사용된다.

 

영상은 기본적으로 데이터의 크기가 크고 또한 컴퓨터 비전에서는 그것을 실시간으로 처리해야 하기 때문에 많은 연산을 빠른 속도로 처리할 수 있는 컴퓨터가 필요하다. 컴퓨터의 CPU만으로는 연산용량이 부족하기 때문에 전용 가속 하드웨어를 사용하기도 한다. 

 

컴퓨터 비전 분야는 아직도 발전해야 할것이 많고 현재도 발전하고 있는 분야이다. 컴퓨터 비전 기술이 어느정도 완성된다면 인터넷이나 컴퓨터 만큼은 아니더라도 사회에 아주 큰 영향을 줄 것 같다.

 

예를 들면, 학교에서 출석을 부르거나 학생증을 찍을 필요없이 카메라로 찍기만 하면 누가 출석했는지 자동으로 알수도 있다. 스포츠 경기장의 심판도 대체될 수 있다. 로봇과 결합하면 인간이 할수 있는 단순 작업을 대부분 할수 있을 것이다.