반응형
 

writer : chamcham
reference : Elementary Linear Algebra by ANTON


- 언제나 x가 0인 해를 가짐 : trivial solution

- Ax = y, A는 m(행, 식의 수) x n(열, 변수의 수) matrix

- m개의 A의 열들 중 서로 독립인 열의 수를 m' < m이라 하면, m' < n일 때, 즉 독립인 식의 수 < 변수의 수 일때만 nontrivial solution 을 가짐


Ax = b

- 일반적으로 homogeneous system(Ax=0)에서는 x=0 이라면 항상 해가 된다. 이 해를 trivial solution이라고 한다.

- Ax=0 이 nontrivial solution을 가질 필요충분조건은 A의 column이 linearly independent이기 때문이다. 또한 Ax=0 이 nontrivial solution을 가진다는 이야기는 동시에 수많은 해를 가진다는 이야기와 같다.

만일 A가 정사각행렬이고, nontrivial solution을 가진다면 A는 singular matrix가 된다.




반응형
반응형

Triangulation

writer : chamcham
reference : ENGIN TOLA's MS paper

Triangulation is finding M in 3d space.
it has many solution such as Mid-point, Linear Triangulation, Linear LM etc.

most useful method is Linear Triangulation. because it is very easy in implementation.

equation form is AM = 0
we just solve this linear equation using Pseudo-inverse or SVD.



반응형
반응형
 Stereo Vision

writer : chamcham
reference : Three Dimension Computer Vision..


Stereo Vision have two problem..
Given two images, We want to solve this problem.

the First is correspondence problem.
if point m1 in image plane 1 is given, decide which point m2 in image plane 2 it corresponds to.

the Second is recosntruction problem.
if point m1 and m2 are given, we compute the 3D coordinates of M in the world reference frame.




반응형
반응형

Outlier를 제거하는 알고리즘 중 하나...

( RANSAC's Algorithm )


Given: data - a set of observed data points
model - a model that can be fitted to data points
n - the minimum number of data values required to fit the model
k - the maximum number of iterations allowed in the algorithm
t - a threshold value for determining when a data point fits a model
d - the number of close data values required to assert that a model fits well to data
Return: bestfit - model parameters which best fit the data (or nil if no good model is found)


iterations = 0
bestfit = nil
besterr = something really large
while iterations < k
maybeinliers = n, randomly selected values from data
maybemodel = model parameters fitted to maybeinliers
alsoinliers = empty set
for every point in data not in maybeinliers
if point fits maybemodel with an error smaller than t
add point to alsoinliers
if the number of elements in alsoinliers is > d
% this implies that we may have found a good model now test how good it is
bettermodel = model parameters fitted to all points in maybeinliers and alsoinliers
thiserr = a measure of how well model fits these points
if thiserr < besterr
bestfit = bettermodel
besterr = thiserr
increment iterations
return bestfit


출처 : 인터넷 어딘가... 기억이 잘.. ㅡㅡ;




반응형
반응형

Camera Calibration.

카메라 보정을 한마디로 정의하자면,
intrinsic parameter와 extrinsic parameter를 구하는 것을 Camera Calibration 이라고 합니다.

extrinsic은 카메라 외부의 즉, 위치에 관한 파라미터이고,
intrisic은 카메라 자체 내부의 focal length나 optical center등에 관한 정보 입니다.


여러가지 방법으로 Calibration을 수행할 수 있지만, 그 중에서 가장 단순한 Direct Method의 경우,
intrinsic과 extirinsic을 Projection 매트릭스로부터 구해낼 수 있습니다.


Projection 매트릭스는 image좌표와 world 좌표 간의 매핑을 가능하게 해주는 매트릭스 입니다.
우선 우리는 두 좌표를 이용해서 projection 매트릭스를 구하고


P = K(R|T)

이므로.. 우린 P를 QR Decomposition함으로서 intrinsic과 extrinsic을 구할 수 있습니다.

이러한 방법을 Direct Method 라고 하고,
조금씩 다른 Tsai나 Zhang의 방법들 또한 존재하고 있습니다.


written by chamcham



반응형
반응형

(출처 : 지식인 poroly97 (2005-11-04 09:50 작성))


자료 찾다가... 의외로 지식인에도 이래저래 잘 적어놓은 글이 있길래..

중복해서 붙어있는거 보니... 어디서 긁은것 같긴하지만 뭐.. 여튼..


-----------------------------


I 프레임 - Infra Frame 의 약자로, 쉽게 말해 키 프레임 입니다. 이것은 JPEG 같은 방식으로 소스로부터 직접 압축되어 온 전체 그림이죠. 가장 화질도 좋지만 가장 용량도 큽니다.

P 프레임 - Previous 또는 Predicted Frame 이라 불리며, 이전에 나온 키 프레임의 정보를 바탕으로 구성된 프레임 입니다. 화질/용량 둘 다 중간급입니다.

B 프레임 - Bidirectional Frame 의 약자로, 전후의 I/P 프레임의 정보를 바탕으로 구성된 프레임 입니다. 화질/용량이 다 최하급입니다.

 


MPEG-1/2 인코딩에 대한 몇가지...

요즘 miniDVD 를 시작해 보려는 분들이 좀 계심에 따라, 제 생각에 이런것 관련에 의문이 생길수 있을듯한 사항에 대해 간단히 적어볼까 합니다. 처음 하시려는 분들은 일단 이런 저런 옵션들이 있지만 이것들이 어디에 어떻게 쓰이는지 알수가 없는 이유로 헷갈리시는 경우도 많죠.

일단은 제가 TMPGEnc 위주로 사용을 하므로, 다른 인코딩 프로그램들에 대한것은 뭐라 말씀드리기가 어렵군요.
하지만 MPEG 인코더들의 옵션은 거의 다 비슷비슷 하기 때문에 여기 적는것이 다른곳에도 응용될수 있을거라 생각하는 바입니다.


1. GOP (Group of Pictures)

이것은 MPEG-1/2 인코딩의 가장 기본으로, 키 프레임부터 다음 키 프레임까지의 프레임 모음을 뜻하는 겁니다.
프레임 타입에는 I, P, B 의 세가지가 있으며 각각의 특징은 아래와 같습니다.

=====================================================================
I 프레임 - Infra Frame 의 약자로, 쉽게 말해 키 프레임 입니다. 이것은 JPEG 같은 방식으로 소스로부터 직접 압축되어 온 전체 그림이죠. 가장 화질도 좋지만 가장 용량도 큽니다.

P 프레임 - Previous 또는 Predicted Frame 이라 불리며, 이전에 나온 키 프레임의 정보를 바탕으로 구성된 프레임 입니다. 화질/용량 둘 다 중간급입니다.

B 프레임 - Bidirectional Frame 의 약자로, 전후의 I/P 프레임의 정보를 바탕으로 구성된 프레임 입니다. 화질/용량이 다 최하급입니다.
=====================================================================


이것들의 순서는 대충 I B B P B B P B B P B B I B B P ... 식으로 I 프레임들 사이에 P 프레임들이, I/P 프레임들 사이에 B 프레임이 들어가는 방식으로 구성됩니다. 그리고 I 프레임부터 다음 I 프레임 전까지를 하나의 GOP 로 묶고, GOP 크기는 그 프레임들의 갯수가 되죠. 고로, 위와 같은 경우엔 GOP 크기는 12가 됩니다.

보통 MPEG 인코더들엔 저것을 설정하는 방법이 P 프레임의 갯수와 B 프레임의 갯수를 설정하게 되는데, P 프레임의 갯수는 GOP 안에 들어가는 P 프레임의 갯수고, B 프레임의 갯수는 I/P 프레임 사이에 들어가는 갯수입니다.
고로, 위와 같은 경우 P 프레임 갯수는 3, B 프레임 갯수는 2 가 됩니다.

이 GOP 관련에는 두가지 옵션이 있습니다.
Scene Detection 이라 불리는 기술과 Closed GOP 라고 하는 것이죠.

Scene Detection 은 요즘 웬만한 코덱에는 다 붙어있는 것으로, 화면이 바뀌는것을 감지해서 거기에는 I 프레임 (avi 의 경우 키 프레임)을 끼워넣는 방식입니다. 아무래도 다른 프레임들은 딴 프레임들에 의존하는 프레임들이니, 그런 프레임들과 현재 프레임에 변화가 크면 그만큼 화질이 떨어지게 됩니다. 움직임이 빠른 장면에서 깍두기들이 많이 생기는 이유도 이와 같은 것입니다. 하지만 장면 변환시마다 키 프레임을 넣어주면 용량은 좀 불겠지만, 화질 면에선 많은 향상을 가져올수가 있죠.

Closed GOP 는 GOP 구성중 다음 I 프레임 전의 B 프레임들을 빼 버리는 방법입니다.
그러니
I B B P B B P B B P B B I B B P ... 가 아니라,
I B B P B B P B B P I B B P ... 가 되겠죠.

이것을 하는데는 여러가지가 있습니다만, 첫번째로 이것을 하는 이유는 MPEG 편집시의 용이함 때문입니다.

동영상을 자를 경우, 재인코딩 하지 않는 이상 반드시 첫 프레임은 I 프레임, 그러니 키 프레임이어야 합니다.
그 외의 프레임들은 그 앞에 나온 프레임들의 정보를 이용하는데, 첫 프레임은 앞에 아무 프레임도 없으니 그런 의존적 프레임들이 위치할수가 없습니다.
그리고 MPEG-1/2 의 경우 마지막 프레임은 반드시 I/P 프레임이어야 하죠. B 프레임은 위와 같은 이유로, 뒤에 나오는 프레임을 이용하는데, 뒤엔 아무 프레임도 없으니 올수가 없습니다.

헌데 위의 보통 GOP 의 경우 동영상을 자를때 어디를 잘라도 몇개의 프레임이 소실됩니다.

예를 들면
I B B P B B P B B P
B B // I B B P ...

// 위치를 자를 경우 뒤쪽 부분이야 첫 프레임이 I 프레임이니 문제가 없지만, 앞쪽 부분은 붉은색으로 표시된 마지막 프레임이 B 프레임들이므로 이 두개의 B 프레임이 소실됩니다. 물론 부분 재인코딩을 해 주는 프로그램도 있고, 그런 경우 그 부분을 다시 압축해서 맞는 프레임으로 바쭤 주기도 하지만, 이럴 경우 그 하나의 GOP (프레임 하나만을 재인코딩 할수는 없고, 반드시 그것을 포함하는 GOP 전체가 재인코딩 되어야 합니다)는 화질이 뚝 떨어지게 되죠. 단순히 자르고 붙이는 편집시에 이런 문제는 그리 달가울리가 없습니다.

하지만 Closed GOP 를 사용할 경우
I B B P B B P B B P // I B B P ...

위와 같이 되니, // 부분을 잘라도 전혀 문제가 없게 됩니다. 그러니 자르고 붙이기가 더 용이해지죠.

두번째 이유는...

I B B P B B P B B
P B B (I) B B P ...

예를 들어 (I) 부분에서 장면이 전환되었다고 할 경우, 그 바로 앞의 붉게 표시된 두개의 B 프레임은 파란색으로 표시된 앞의 P 프레임과 바뀐 장면의 I 프레임의 정보를 이용하게 됩니다. 그렇게 될 경우 완전히 다른 두개의 프레임의 정보를 이용하게 되므로 심각하게 화질이 떨어지게 됩니다. 하지만 Closed GOP 를 사용할 경우 저런 문제가 사라지므로 약간의 화질 향상을 기대할수 있습니다.

참고로, 이전에 나왔던 Dazzle DVC 2 의 경우, 저런 상황에서는 저 두개의 B 프레임이 완전히 깨져 버리더군요. 요즘엔 고쳐 졌을지 모르겠습니다만.

이것이 위의 Scene Detection 과 같이 사용되면 더 나은 화질을 기대할수 있을지도 모르겠군요. 아, 물론 Closed GOP 사용시 전체적인 용량이 좀 늘어날겁니다.

(참고로, GOP 앞엔 Sequence Header 라는 것을 넣을수도 있는데, 안 넣어도 그냥 재생엔 문제가 없습니다만, 이것을 매 GOP 마다 넣지 않으면 DVD 로 제작했을시 재생 시작하자마자 멈춰버리거나 하는 현상이 생깁니다. 그러니 DVD 제작용이라면 Sequence Header 간격을 반드시 1 로 주시길)


GOP 에 대한 마지막으로, 어떤 정도가 가장 화질에 좋느냐는것에는 정확한 답이 없습니다. 움직임이 빠를수록 GOP 는 작은게 좋고, 움직임이 느릴수록 GOP 는 큰것이 좋죠.

B 프레임이 화질은 비록 최하라 해도, 움직임이 거의 없어서 앞의 프레임을 그대로 복사해 오는 정도가 된다면, 이건 최소의 용량으로 공짜 화질을 얻게 되는 셈입니다. 이럴경우 전체적으로 용량이 작아질테니 보다 높은 설정을 사용해서 전체적으로 화질을 더 올릴수가 있죠.

반대로 I 프레임이 화질이 좋다고 해서 이것만을 사용하게 된다면, 이것은 화질이 좋다고 해도 용량을 많이 먹게 되므로, 원하는 용량에 맞출 경우 설정이 엄청나게 낮아질수밖에 없고, 고로 전체적으로 화질이 엄청나게 떨어져 버리게 됩니다. 대신 움직임이 아무리 많아도 특별히 더 떨어지는 부분은 없게 되겠죠.

쉽게 비교하면, 정해진 용량에 동영상을 맞춘다고 할 경우, B 프레임이 많으면 전체적인 화질이 좋아지지만 급격한 움직임에서 화질이 떨어지게 되고, I/P 프레임이 많으면 급격한 움직임에도 특별히 화질이 떨어지진 않지만, 전체적으로 화질이 많이 떨어지게 됩니다.

그러니 저용량 고화질의 조건은 이 세개를 어떻게 잘 조합하느냐지, 화질이 좋다는 것만 골라서 쓰는것이 아닙니다.
정 화질을 높이고 싶으시면 Scene Detection 과 Closed GOP 를 같이 사용하시면 보다 나은 효과가 있을 겁니다.


2. Color Space

보면 MPEG 인코딩시 YUV 4:2:0 또는 YUV 4:2:2 등의 것이 있는데, 이게 무엇인지를 설명하려 하는 것입니다.

아시다시피, 컴퓨터의 색상은 RGB 로 결정됩니다. RGB 는 말 그대로 Red/Green/Blue 가 합해져서 색을 표현하는 방식이죠. 가장 이해하기 쉬운 방식이기도 합니다. RGB 24 이 경우, 각각의 RGB 채널이 8비트, 즉 256 색을 낼수 있고, 이것을 섞어서 여러가지 색을 구현합니다.

하지만, TV 의 신호는 약간 다릅니다. 사람의 눈은 색 변화보다는 밝고 어두움의 정도에 더 민감합니다. 색맹이라도 밝고 어두운건 구별합니다. 뭐 깊게 설명하자면 사람 안구 내의 빛을 감지하는 세포가 두종류가 있고 각각이 어쩌구 저쩌구 하게 설명할수도 있지만, 이런건 넘어가고... =_=

그래서 이것을 이용하는 방법이 YUV 라는 방법입니다. 여기서 Y 채널은 밝기 채널, Luminance Channel, 줄여서 루마 채널이라 불립니다. 나머지 UV 채널은 컬러 채널이죠. Chrominance Channel, 줄여서 크로마 채널이라 불립니다. 두개의 크로마 채널은 색만을 기록하고, 루마 채널에서 이것의 밝기를 조절하죠. 예를 들어 남색과 하늘색이 있을 경우, 크로마 채널의 색은 하나지만, 루마 채널에서 밝기를 조절함으로써 어두운 파란색과 밝은 파란색의 효과를 내는 겁니다.

여기서 두개의 크로마 채널이 없이 달랑 루마 채널 하나만 있다면 그것은 흑백이 됩니다.

YUV 중에서 가장 높은건 YUV 4:4:4 로, 주로 편집시에나 쓰입니다.
이것은 루마 채널이 8비트, 두개의 크로마 채널이 각각 8비트 해서, 실질적으로 RGB24 와 동일합니다. 이것은 모든 픽셀이 각각의 루마값과 크로마 값을 갖게 되죠. RGB ↔ YUV 도 별로 어렵지 않습니다.

헌데, TV 방송에는 YUV 4:2:2 를 사용합니다.
이것은 루마 채널은 여전히 8비트지만, 다른 두개의 채널은 각각 절반인 4비트씩밖에 되지 않는 것입니다. (뭐 4비트라고 하긴 좀 의미가 다르긴 하지만요) 고로, 용량을 RGB 16 과 같은 용량밖에 먹지 않습니다.

그럼 이것의 구성은 어떠냐 하면, 사용하는 색 수를 줄이는 것이 아니라, 하나의 색이 하나의 픽셀이 아닌, 두개의 픽셀에 영향을 주는 것입니다. YUV 4:2:2 의 경우, 모든 픽셀은 각각의 루마값을 갖지만, 매 가로 두 픽셀은 하나의 크로마 값밖에 갖지 못하죠.
그러니 이 두개의 픽셀은, 하나는 남색, 다른 하나는 하늘색이 될수 있지만 (루마값은 다르지만 크로마 값은 같은), 하나는 파란색, 하나는 빨간색이 될수는 없습니다. 하지만 아주 칼같이 깨끗한 화면이 아닌 이상, 이런것은 거의 구별할수가 없습니다.

다음으로 YUV 4:1:1...
이것은 NTSC DV 에 사용되는 방식으로, 역시 매 픽셀은 각각의 루마 값을 갖지만, 크로마 값은 가로로 4개의 픽셀당 하나씩밖에 가질수 없습니다. 고로 역시 위와 같이 이 4개의 픽셀은 다른 색을 가질수는 없습니다.

다음으로 YUV 4:2:0 는 MPEG-1/2 에 사용되는 방식인데 (HDTV 는 YUV 4:2:2 입니다만), 이것은 역시 루마 값은 각각이지만 크로마 값은 가로 2픽셀, 세로 2픽셀의 2x2, 총 4개의 픽셀당 하나씩밖에 갖지 못합니다. 쉽게 말해 YUV 4:1:1 과 비슷하지만, 픽셀들의 위치만 다른 셈이죠.

이렇게 볼때, 매 픽셀마다 하나씩의 크로마 값을 준다면,

YUV 4:4:4 는 루마/크로마 채널이 전부 720*480 크기지만,
YUV 4:2:2 는 루마 채널은 720*480, 크로마 채널은 360*480 인 셈이고,
YUV 4:1:1 은 루마 720*480, 크로마 180*480,
YUV 4:2:0 는 루마 720*480, 크로마 360*240 인 셈입니다.

크로마 채널들은 저 크기를 늘려서 맞추는 셈이죠.

그러니 이렇게 형식이 달라진다고 해서 보이는 색이 달라져 보이는 것이 아니라, 선 주위에 색이 얼마나 번져 보이느냐의 차이밖엔 없습니다.

보통 DVD 애니 등을 divx 등으로 립을 했을때, 선 주변이나 타이틀 근처에 파랗게 색이 번져 보이는 경우가 있는데, 보통 이런 이유입니다.


참고로 아날로그의 경우...
LaserDisc 등은 4:2:2 입니다. 그러니 컬러 채널 면에서는 DVD 보다 좋죠. 하지만 아날로그의 단점은 이 컬러 채널들에 노이즈가 굉장히 쉽게 낀다는 겁니다. 그리고 선 주변의 디테일에 흔들림이 많아서 무지개 색처럼 색이 찢어지거나 하는 경우가 많죠.
이런 이유로 LD 가 DVD 보다 화질이 떨어져 보이는 겁니다. 하지만 LD 의 루마 채널은 보통 굉장히 깨끗한 편이고, DVD 처럼 선 주위에 희미하게 압축 노이즈가 나타나거나 하는 것도 없으므로, 만일 흑백으로만 동영상을 캡쳐한다면 DVD 보다 LD 쪽이 더 나은 화질을 낼겁니다. 흑백에 화질이라고 할만한게 있을지 모르겠고, 덤으로 이런 일을 할 사람이 있을지는 더더욱 의문이지만요.

만일, 컬러 채널의 노이즈를 완벽하게 제거할수 있는 필터가 있다면, LD 쪽이 DVD 쪽보다 더 나은 화질을 내게 될지도 모르겠군요.
VirtualDub 의 TV 필터에서 IQ 채널 3x3 필터를 사용하면 나름대로 이 컬러 채널 노이즈를 뭉개 줍니다.


3. 그 외

MPEG-2 에는 3가지의 인코딩 모드가 있습니다.
Progressive, Interlaced, 3:2 Pulldown when playback (TMPGEnc 용어로 따졌을때) 가 그 3가지 입니다.

Progressive, 또는 Non-interlaced 라는건 보통 다른 모든 동영상이 압축되는 방식입니다.
프레임 단위로 압축해 넣는 방식이죠. 대신 화면에 인터같이 문제가 있을 경우엔 그것이 그대로 보이게 됩니다.

Interlaced 모드는 하나의 프레임을 두개의 필드로 나눠서 각각을 따로 압축하는 방식입니다. 그러니 720*480 프레임 하나를 720*240 프레임 두개로 나눠서 압축하는 셈이죠. 이것은 재생시 Weave 라고 하는, 이 두개를 다시 그대로 합해서 보여주는 방법과, BOB 라고 하는, 각각의 720*240 크기 프레임들을 720*480 으로 늘려서 보여주는 방식이 있습니다 (물론 BOB 의 경우 프레임 레이트가 두배가 되어 버리겠죠)
이것의 장점이라면 보통 인터 현상이 나타나는 프레임은 두개의 필드가 어긋나서 생기는 것이므로, 이 모드로 압축하면 그런거 문제 없이 압축이 가능하고, 재생할때도 BOB 모드로 재생할시 그런것이 전혀 보이지 않게 됩니다. 대신 용량을 좀 더 먹게 되죠.
참고로, 이 모드는 23.976 인 소스에는 사용할수 없습니다.

(주의: 이 모드로 압축할 경우엔 어떤 필드가 먼저 재생되는지를 설정하게 되는데, 보통 DVD 는 Top Field 가 먼저입니다. 때에 따라 Odd Field 라고 나오기도 하죠. 그러니 TMPGEnc 를 이용, Interlaced 모드로 압축하신다면 반드시 Advanced 탭에서 Top Field First 라고 되어 있는지 확인하시기 바랍니다. 잘못 설정하면 재생시 움직임마다 계속 뒤로 튕기는 것 같은 현상이 나타납니다.)

마지막으로 3:2 Pulldown when playback 라는 것은, 23.976 소스에만 사용할수 있는 것으로, 보통 TV 등의 progressive 재생을 지원하지 않는 곳에서 재생시엔 자동으로 29.97 프레임으로 늘려서 보여주는 방식입니다. 하지만 프로그레시브 지원의 DVD 플레이어나 컴퓨터에서 재생시 그대로 23.976 으로 보여주게 되죠. DVD2AVI 에서 필름 소스라 표시되는게 이 방법으로 압축된 겁니다.

이것의 장점이라면 당연히 실질적으로 프레임 수가 20% 적으니 그만큼의 화질 향상을 기대할수 있습니다. 그리고 또한, 동영상 정보에는 29.97 로 기록되므로, 진짜 29.97 프레임인 동영상과도 문제 없이 연결됩니다. (연결했을시, 플레이어에 따라 연결 지점에서 잠시 버벅대는 경우가 발생할수 있습니다만) 그러니, DVD 소스를 Inverse Telecine (IVTC) 처리를 해서 23.976 으로 바꿨을 경우, 반드시 이 모드로 압축하시는 것이 좋습니다. 그냥 Interlaced 모드로 압축하는것을 잘 처리해서 이 모드로 압축할 경우 30 ~ 40% 정도의 용량 절약 효과가 있습니다.


일단 이정도만 알고 계시면 제작에 큰 문제는 없으실듯 하군요.
Quantization 설정 같은건 아직 저도 잘 모르겠으니 넘어가고... 한마디 하자면, 딴 MPEG 인코더 같은 경우 Quantization 값을 설정할수 있는 경우가 있는데, 간단하게 말해 이 값은 낮을수록 원본 화질에 가깝게 됩니다. 그렇다고 너무 낮추면 눈에 보이는 향상은 없으면서 용량만 커 지니 주의를... MPEG-1/2 인코딩에 대한 몇가지...

요즘 miniDVD 를 시작해 보려는 분들이 좀 계심에 따라, 제 생각에 이런것 관련에 의문이 생길수 있을듯한 사항에 대해 간단히 적어볼까 합니다. 처음 하시려는 분들은 일단 이런 저런 옵션들이 있지만 이것들이 어디에 어떻게 쓰이는지 알수가 없는 이유로 헷갈리시는 경우도 많죠.

일단은 제가 TMPGEnc 위주로 사용을 하므로, 다른 인코딩 프로그램들에 대한것은 뭐라 말씀드리기가 어렵군요.
하지만 MPEG 인코더들의 옵션은 거의 다 비슷비슷 하기 때문에 여기 적는것이 다른곳에도 응용될수 있을거라 생각하는 바입니다.





반응형
반응형

image mosaic


비젼 시간의 과제로 만들어 본 파노라마 영상 생성.
음.. 원래 하는 일이 이거긴 하지만..


워낙 공부를 등한시 하고 살아왔기에.. 비젼시간을 통해서 기본적인 파노라마 영상생성 방식부터..
파노라마 영상은.. 음.. 연속된 이미지 시퀸스를 이어붙여서 만든
넓은 fov를 가지는 영상을 일컫는다.
 

그럼 만들어보자.
우선은 영상 획득..
이건 교수님이 제공해주셨다. 학교에서 찍었단다.
영상획득시 주의점
Rotation Center의 고정..
Translation 존재시엔 motion parallax와 scale 문제등이 발생하기에..
Center를 고정시키고 Rotation만을 수행해서 사진을 찍는다고 가정한다.

사용자 삽입 이미지


자.. 이게 획득된 영상이다.
사진은 100장.. 맞나? 101장인가.. ?
어쨌든 이미지 시퀸스..
먼저 우리가 할것은 Feature Detection..
harris로 corner를 찾든.. KLT로 찾든.. 직접 찾든..
찾아서 각 영상들 사이의 correspondence를 구해한다. ..


아참.. 지금 하는 건 mosaic method 중에 feature based method..
그렇게 해서 correspondence를 이용해서..
영상들간의 homography를 구한다.
matching했을대 outlier가 많이 존재할 테니까..
RANSAC 알고리즘(지금 하는 공부 부분 참조)을 이용해서 outlier들을 제거하고
inlier들로만 homography를 만들어서
alignment..

그리고 blending.. 하면..
다음 결과 완성.. 여기서 각 부분은 opencv 이용해서 하면 쉽게 해결할 수 있다.
알고보니 opencv에 homography 구해주는 함수도 있던데..
어쨌든.. 파노라마 영상이라.. 괴롭다. ㅡㅡ;

사용자 삽입 이미지

자 이제 이게 완성된 파노라마 영상..
두둥.. 역시 로테이션만 있으니 깨끗하게 잘 붙었군..
그외에 여러 후처리가 있지만 전혀 안해도 되는군..
 
근데 지금하는건 완전히.. 이런 젠장.. 황당할 정도네 ㅡㅡ;
지금 하는 것도 결과 좋으면 올려볼까나..




반응형
반응형
사용자 삽입 이미지


VFW를 사용해서 흔히들 캠으로부터 영상을 많이 얻어낸다.
간단하고 쉽게 적용할 수 있다. 그 외에도 opencv로도 artoolkit으로도
이용할 수 있다.
 
하지만.. 다수의 카메라를 빠르게 제어하긴 힘이 든다.
아니 힘이 들었다.
 
여러대 인식이 안되는 녀석도 있었고.. 매번 세팅창이 뜨거나..
그리고 무엇보다 여러개를 억지로 띄워도 느리다. ㅡㅡ;
 
빠르게... 지금 필요한 캡쳐 시스템은 좀 빨라야 하기 때문에..
 
어차피.. 딴 일하는데 잠시 이런 캡쳐 프로그램이 필요했으니.. 간단히 만들어보자.
우선 다이렉트 쇼를 공부... 하려고 보니.. 머 이렇게 많냐..
모르겠는 말이 너무 많다.
 
이 따위것 다 공부할 시간없는데..
image capture 프로그램 예제로 직행..
Still cap이라는 예제가 DirectX sdk 깔면 들어 있다.
 
이 녀석을 고쳐서 쓰기로 결정..
쓰기 어렵게 된 이녀석을 제대로 분류해서 다시 클래스 화 시키고..
클래스 하나에 완전히 독립된 캡쳐시스템을 구성하여 완성..
 
그리고 그 클래스를 여러개로 인스턴스화해서..
사용하면 끝..
 
이쁘게 프리뷰 좀 만들어주고..
일정간격으로 설정하면 자동으로 캡쳐해주게 좀 바꿔주고..
 
카메라들로 부터 들어오는 영상의 sync 맞춰주고 하면 오케이..
그럼 저 녀석이 탄생한다.
뭐 만들어진 예제 참고해서 다시 고쳐 내는 작업이었기에 얼마 걸리지도 않는다.
다시 클래스화하고 sync 맞춰서 이미지 저장되게 하는게 조금 걸리적 거리긴 하지만.
그리고 간단한 directshow의 함수들 기능만 이해하면..
 
이런건 공부가 아니라.. 단순 노가다..
이게 더 편한데.. 거참.. 어케 된 영문인지..
공부랑 거리가 먼가.. ㅡㅡ;
 
 
written by chamcham
reference : microsoft directX 9.0b



반응형
반응형
fish-eye lens를 사용하여 촬영된 이미지는 radial 방향과 tangetial 방향으로 극심한 왜곡을 가진다.
그럼 이 영상을 보정해서 펴 보자.
수 많은 방법이 있지만.. 쉽게.. 간단하게 펴 보자.

사용자 삽입 이미지

위의 사진이 fish-eye lens camera에서 획득된 사진이다.
이 사진은 인터넷 어딘가의 샘플이미지 였던거 같다.
구글 이미지에서 검색 가능..
 
어쨌든 이 녀석을 펴 보면 된다. 쉽게 하면 디게 간단하다.

사용자 삽입 이미지
이 영상이 펴본 모습..
어려운 다항식을 많이 사용할수도 있지만..
여기선 렌즈의 곡면을 구면이라고 가정을 하고 펴보았다.
이때 camera의 focal length를 알고 있다면 이 작업은 수월하게 끝이 난다.
바로 다음 그림과 같이 보정 작업을 수행하였다.

사용자 삽입 이미지
즉 렌즈의 곡면이 저 구라고 보면 구 상에 맺힌 이미지가 왜곡된 이미지 일거다.
그럼 왜곡된 이미지의 한점을 노란색 평면으로 보내는 식을 생각해보면 쉽게 풀릴 일이다.
 
구면과 평면사이는 직각삼각형의 모양을 이루므로
다음 그림과 같이 Focal length의 값과 L값, 그리고 왜곡된 점의 좌표를 알고 있으면
보정된 점의 좌표를 구할 수가 있다.
 
but, 항상 이쯤에서 주의할점..
backward mapping할것...
 
설명하기는 forward mapping이 좋지만..
hole이 생기는 것을 방지하려면 backward mapping이 좋다.
아니면 interpolation해서 메우던가..
 
어쨌든 이 내용도 논문에 나왔던 내용..
 
 
 
 
written by chamcham


reference :  신주홍, 남동환, 권기준, 정순기, "Ellipsoid를 이용한 어안렌즈의 non-metric 접근 왜곡 보정 기법", HCI 2005 中




반응형
반응형
사용자 삽입 이미지


Matrix Multiplication은 상당히 잦은 연산중에 하나다.
이 연산의 효율은 상당히 떨어진다.
이 연산을 빠르게 할수만 있다면 얼마나 많은 프로그램에서 보다 빠르게 프로그램을 구동할 수 있을까?
 
빠르게 하려면 어떻게 해야 좋을까?
놀고 있는 그래픽 카드를 써보자.
 
그래서 유로그래픽스에 발표된 논문이 바로 Matrix Multiplication이란 논문이다.
수업시간에 과제를 겸해서 이걸 간단하게 이 논문 내용을 구현해 보기로 했다.
미리 말하지만.. 3x3, 4x4 행렬의 곱을 말하는 게 아니다.
 
Dense Matrix..
즉, 데땅 큰 행렬만 취급한다.
 
실험은 32x32부터 1024x1024까지 해봤다.
그래픽 카드는 Geforce 6200, 6800에서 해봤고..
최근에 7900에서 해봤다.
 
결과적으로 빠르다.
아니 빨라야 정상이다.
 
하지만, 6200의 경우 Dense한 정도가 낮으니 오히려 느려졌다.
물론 논문에서 처럼 수학전문 라이브러리를 쓴건 아니지만...
 
여튼.. 그런 cpu 알고리즘 보다 늦었다.
이유는.. 그래픽카드에서 메인 메모리로 넘겨주는 버스 속력이 느리기 때문에..
 
하지만 매트릭스가 dense할 수록..
cpu는 급격히 느려지는 반면..
gpu는 그 느려짐이 완만해 졌다.
 
즉, gpu내부의 연산 능력은 훨씬 빠르다는 뜻..
 
최근의 7900에서 테스트 결과..
버스 스피드도 많이 개선되었고.. gpu 자체의 속력도 엄청나게 올라갔다.
 
그래서..
훨~~씬 빠른 계산 능력을 보여줬다.
 
그럼 결론은 여기까지 하고..
그럼 어케 그림 그리는 그래픽 카드로 계산을 하느냐..
 
그래픽 파이프 라인안에 우린 손을 델 수 있으니까..
제한적이긴 하지만..
 
shading language로 fragment 부분을 프로그래밍 해주면 된다.
물론 데이터는 texture에 넣어서 넘겨주고..
 
그렇게 텍스쳐에 n x n 행렬을 넣어주고
그걸 읽어와서..
 
계산을 해주면 그래픽 카드는 병렬처리하니까..  더 빠르게 계산될테고..
처리해서 다시 graphic buffer에 써주면 된다.
 
그 buffer에서 다시 데이터를 읽고 그걸 출력하면 끝..
 
이때 graphic buffer에서 데이터를 읽을때 무진장 긴 시간을 소비한다.
여기서 bottle neck 발생..
 
여튼 아직 공부도 더 필요하고 개선될 여지도 많은..
재미있는 분야..
 
다만.. 뭔가 다른 주제 하나를 가지고 있어야..
이걸 응용하는 것이 가능할듯..
 
기존에 했던 작업을 이걸로 더 개선한다거나 하는..
언젠간 공부한거 써 먹겠지..
 
교수님 말 안듣고.. 혼자 심심해서 해봤던 공부..
음.. 덕분에 많이 손해봤지만.. 그래도.. 나름 재미있었는데.. ㅋ



반응형

+ Recent posts