-
Notifications
You must be signed in to change notification settings - Fork 2
/
Copy paththeoretical_contents.tex
587 lines (500 loc) · 31.9 KB
/
theoretical_contents.tex
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
271
272
273
274
275
276
277
278
279
280
281
282
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
325
326
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
357
358
359
360
361
362
363
364
365
366
367
368
369
370
371
372
373
374
375
376
377
378
379
380
381
382
383
384
385
386
387
388
389
390
391
392
393
394
395
396
397
398
399
400
401
402
403
404
405
406
407
408
409
410
411
412
413
414
415
416
417
418
419
420
421
422
423
424
425
426
427
428
429
430
431
432
433
434
435
436
437
438
439
440
441
442
443
444
445
446
447
448
449
450
451
452
453
454
455
456
457
458
459
460
461
462
463
464
465
466
467
468
469
470
471
472
473
474
475
476
477
478
479
480
481
482
483
484
485
486
487
488
489
490
491
492
493
494
495
496
497
498
499
500
501
502
503
504
505
506
507
508
509
510
511
512
513
514
515
516
517
518
519
520
521
522
523
524
525
526
527
528
529
530
531
532
533
534
535
536
537
538
539
540
541
542
543
544
545
546
547
548
549
550
551
552
553
554
555
556
557
558
559
560
561
562
563
564
565
566
567
568
569
570
571
572
573
574
575
576
577
578
579
580
581
582
583
584
585
586
587
\chapter{배경 이론}\label{chapter:theoritical_chapter}
제 \ref{chapter:theoritical_chapter}장 에선 제안할 시스템을 위한 배경 및 기본 수식에 대해 소개한다.
이해하기 위한 첫 번째 내용은 카메라모델이다.
카메라모델은 빛이 이미지 평면에 투영되는 과정을 수학적으로 풀어 쓴 과정이다.
도심속에 존재하는 다양한 CCTV 카메라가 갖는 일반렌즈, 광각렌즈, 어안렌즈를 고려하여 다양한 카메라 모델에 대한 수학적 내용을 시스템에 적용하는 것이 목표이다.
두 번째 내용은 카메라 보정과 SfM기술이다.
카메라 보정과 SfM의 범위에 대해 인지한 후 본 연구가 최적화하는 파라미터에 대해 간단히 이해한다.
세 번째는 오버피팅에 관한 내용이다.
이는 본 시스템이 활용가능한 데이터 부족으로 인해 필연적으로 겪을 수 밖에 없는 문제이기에 해당 내용에 대해 소개한다.
\begin{enumerate}
\item \textbf{카메라모델}: 다양한 카메라 모델을 소개한다.
\item \textbf{카메라보정 및 SfM}: 카메라 보정과 SfM 기술에 대해 소개한다.
\item \textbf{과적합과 교차검증}: 과적합과 교차검증에 대해 소개한다.
\end{enumerate}
% \section{시스템 배경}\label{sec:system_background}
\section{카메라모델}\label{subsec:camera_model}
\begin{figure} %%% 그림 바꿔야함.
\centering
\includegraphics[width=0.95\textwidth]{images/camera_model/pinhole_camera.png}
\caption{핀홀 카메라모델 투영 과정, 수정 = $\mathbf{X}$->$\mathbf{X}_w$}
\label{fig:pinhole-camera}
\end{figure}
카메라 모델이란 물체에 반사된 빛이 렌즈를 통과해 이미지센서에 투영되는 물리적 과정을 수학적 모델로
표현한 것이다.
간단한 카메라모델인, 왜곡이 없는 핀홀 카메라모델를 통해 투영과정을 Figure \ref{fig:pinhole-camera}를 통해 이해할 수 있다.
World 좌표계 위의 점 $\mathbf{X}$가 카메라 좌표계로 변환된 후, 초점(focal point)를 지나 초점거리($f$) 만큼 떨어진 이미지평면에 투영되어 점 $\mathbf{x}$에 투영되는 것을 확인 가능하다.
삼각비를 활용하면 $x = X \ f/Z$, $y = Y \ f/Z$ 로 $x, y$를 계산할 수 있다.
이후 이미지 평면에서 픽셀 평면으로 좌표계를 변환하면 $u=x + c_x, v=y + c_y$ 과 같이 계산할 수 있다.
즉 핀홀 카메라모델에서는 3차원 점 $\mathbf{X}$와 픽셀평면 위의 점 $\mathbf{p}$는 수식 \ref{eqn:pinhole-model-simple}을 통해 투영된다.
\begin{equation}\label{eqn:pinhole-model-simple}
\mathbf{p} = \mathbf{K}(\mathbf{RX+t})
\end{equation}
\begin{equation}\label{eqn:pinhole-model-hard}
\begin{bmatrix}
u \\
v \\
1
\end{bmatrix} =
\begin{bmatrix}
f_x & 0 & c_x \\
0 & f_y & c_y \\
0 & 0 & 1
\end{bmatrix}
\begin{bmatrix}
X/Z \\
Y/Z \\
1
\end{bmatrix}
\end{equation}
식 \ref{eqn:pinhole-model-simple}의 $\mathbf{p}=(u,v)$이며 1은 homogeneous plane을 위해 사용된 파라미터이다.
$\mathbf{X}=(X, Y, Z)$이며 3차원 world 좌표계위의 점이다.
$\mathbf{R, t}$는 world 좌표계에서 카메라 좌표계로의 변환 $\mathbf{T}$의 구성요소이며, 카메라 외부 파라미터라고 한다.
각각 회전변환, 이동변환을 의미한다.
$\mathbf{K}$는 카메라 내부파라미터이며 $f_x, f_y, c_x, c_y$로 구성된다.
내부파라미터는 사용자 정의에 따라 수식을 간소화 할 수 있다.
첫 번째로 $f=f_x=f_y$로 가정하여 사용할 수 있다.
해당 경우는 일반적으로 이미지 센서의 $x, y$ 크기가 같다는 가정하에 사용한다.
두 번째로 $c_x=(W-1)/2, c_y=(H-1)/2$로 가정하여 사용한다.
이는 렌즈의 중심과 카메라 센서의 중심이 일치한다는 가정하에 사용한다.
식 \ref{eqn:pinhole-model-hard}의 $[u, v, 1]^\top$은 계산의 편의성을 위해 homogeneous coordinate를 이용한 표현이다.
\begin{figure*}\centering
\includegraphics[width=0.48\linewidth]{images/camera_model/real_camera_projection.png}
\includegraphics[width=0.48\linewidth]{images/camera_model/total_camera_models.png}
\caption{좌: 실제 빛의 투영 과정. 우: 수학적으로 모델링된 카메라모델
수정 = $\mathbf{P}$->$\mathbf{x}$, $\mathbf{X}$ -> $\mathbf{X}_w$, 가능하면 그림도 pixel plane 추가}
\label{fig:real_cam_projection}
\end{figure*}
왜곡을 고려하지 않은 핀홀 카메라모델 이외에 왜곡을 고려한 다양한 카메라모델이 존재한다.
카메라모델은 두 가지 과정으로 나뉠 수 있으며, 첫 번째 투영모델(projection model, $\mathcal{P}$)과 두 번째 왜곡모델(distortion model, $\mathcal{G}$)로 구성된다.
\begin{align}
&\mathbf{p}=\mathbf{K}\mathcal{G}(\mathbf{RX+t})
\label{eqn:full-cam-proj} \\
&\mathbf{p}=\mathbf{P}(\mathbf{X})
\label{eqn:cam-proj-simple}
\end{align}
식 \ref{eqn:full-cam-proj}은 식 \ref{eqn:pinhole-model-simple}에서 왜곡모델이 추가된 것이다.
식 \ref{eqn:cam-proj-simple}은 식 \ref{eqn:full-cam-proj}를 간단히 한 것이며, $\mathbf{P}$는 앞서 설명한 $\mathbf{K}, \mathcal{P}, \mathcal{G}, \mathbf{R, t}$로 구성된다.
직관적으론, 투영모델($\mathcal{P}$)이란 빛이 이미지 평면에 맺히는 과정에 대한 수식이며, 왜곡모델($\mathcal{G}$)은 외부 효과 등으로 인해 빛이 왜곡되는 현상에 대한 수식이다.
각 모델은 Figure \ref{fig:real_cam_projection}의 우 측 그림을 통해 구분할 수 있다.
투영모델은 파란색 벡터로 3차원 점 $\mathbf{X}$가 정규화된 평면 위의 $\mathbf{X}_n$로 투영되는 과정으로 $r_u$와 $\theta_u$ 사이의 관계로 표현한다.
왜곡모델은 빨간색 벡터로 정규화된 평면에서 왜곡된 평면위의 점 $\mathbf{X}_d$로 투영되는 과정으로 $r_u$와 $r_d$의 관계로 표현한다.
논문 \cite{zeroshot}에 따르면 투영모델은 다음과 같이 6가지가 존재한다.
이들은 화각을 통해 일반적으로 세 가지 그룹으로 나뉜다.
카메라의 화각이 100도 이하라면 표준렌즈, 카메라 화각이 100도 이상 180도 미만 광각렌즈, 180도 이상은 어안렌즈라고 부른다.
망원렌즈의 경우 왜곡에 의한 이미지의 변형이 거의 없으니 해당 화각은 고려하지 않는다.
세 가지 그룹으로 나누었을 때, 표준렌즈가 사용하는 모델은 일반적으로 Figure \ref{fig: camera projection models-2} (a) 이다.
광각렌즈가 사용하는 그룹은 Figure \ref{fig: camera projection models-2}의 (b), (c), (d), (e) 이다.
마지막으로 어안렌즈가 사용되는 그룹은 (f) 이다.
단, (f)는 광각렌즈에서도 사용될 수 있다.
식 \ref{eqn: perspective projection} - \ref{eqn: unified camera projection}은 Figure \ref{fig: camera projection models-2}의 모델들을 수식화 한 것이다.
각 그룹에서 대표적으로 사용되는 투영모델은 Perspective projection, Equidistant projection, Unified camera projection(이하 sphere model) 이다.
본 시스템은 세 가지 투영모델을 기반으로 작성되었다.
\begin{align}
&r_u = f \tan \theta_u &&\text{(Perspective)}
\label{eqn: perspective projection} \\
&r_u = 2f \tan (\theta_u/2) &&\text{(Stereographic)}
\label{eqn: stereographic projection} \\
&r_u = f\theta_u &&\text{(Equidistance)}
\label{eqn: equidistance projection} \\
&r_u = 2 f \sin (\theta_u / 2) &&\text{(Equisolid angle)}
\label{eqn: equisolid projection} \\
&r_u = f \sin (\theta_u) &&\text{(Orthographic)}
\label{eqn: orthographic projection} \\
&r_u = f \pi(\alpha, \mathbf X) &&\text{(Unified)}
\label{eqn: unified camera projection}
\end{align}
\begin{figure*}[t]
\centering
\begin{subfigure}[b]{0.3\textwidth}
\includegraphics[width=0.95\textwidth]{images/camera_model/perspective.pdf}
\caption{}
\label{fig:sub1}
\end{subfigure}
\hfill
\begin{subfigure}[b]{0.3\textwidth}
\includegraphics[width=0.95\textwidth]{images/camera_model/equidistant.pdf}
\caption{}
\label{fig:sub2}
\end{subfigure}
\hfill
\begin{subfigure}[b]{0.3\textwidth}
\includegraphics[width=0.95\textwidth]{images/camera_model/equisolid.pdf}
\caption{}
\label{fig:sub3}
\end{subfigure}
\begin{subfigure}[b]{0.3\textwidth}
\includegraphics[width=0.95\textwidth]{images/camera_model/orthographic.pdf}
\caption{}
\label{fig:sub4}
\end{subfigure}
\hfill
\begin{subfigure}[b]{0.3\textwidth}
\includegraphics[width=0.95\textwidth]{images/camera_model/stereographic.pdf}
\caption{}
\label{fig:sub5}
\end{subfigure}
\hfill
\begin{subfigure}[b]{0.3\textwidth}
\includegraphics[width=0.95\textwidth]{images/camera_model/sphere.pdf}
\caption{}
\label{fig:sub6}
\end{subfigure}
\caption{
카메라 투영 모델 그림.
\ref{fig:sub1}: Perspective projection.
\ref{fig:sub2}: Equidistant projection.
\ref{fig:sub3}: Equisoloid projection.
\ref{fig:sub4}: Orthographic projection.
\ref{fig:sub5}: Stereographic projection.
\ref{fig:sub6}: Moved sphere projection.
% $\theta_u$ is the angle between the principal axis and the in-coming ray.
$\theta_u$ 주선과 들어오는 빛 사이의 각도를 의미한다.
% $r_u$ is the distance between the image point and the principal point.
$r_u$ 는 이미지의 주점과 투영된 점간의 거리이다.
$f$ 는 초점거리이다.
}
\label{fig: camera projection models-2}
\end{figure*}
3차원 점이 정규화 평면에 투영된 후 수식 \ref{eqn:polynomial_distortion}(\cite{BrownConrady}), \ref{eqn:fov_distortion}(\cite{Devernay2001StraightLH}), \ref{eqn:equdistant_distortion}에 따라 왜곡평면에 투영된다.
\begin{align}
&r_d = r_u(1+k_1 r_u^2 + k_2 r_u^4 + k_3 r_u^6 + \cdots) &&\text{(Polynomial)}
\label{eqn:polynomial_distortion} \\
&r_d = \frac{1}{w} \arctan (2r_u \tan \frac{w}{2}) &&\text{(Field-of-View)}
\label{eqn:fov_distortion} \\
&r_d = f\arctan(\frac{r_u}{f}) &&\text{(Equidistant)}
\label{eqn:equdistant_distortion}
\end{align}
일반적으로 카메라 모델은 투영모델과 왜곡모델을 조합하여 만든다.
다음은 투영모델과 왜곡모델을 조합하는 표 \ref{tab:camera_models} 이다.
시스템은 해당 모델들을 기반으로 비교 실험을 한다.
\begin{table}
\centering
\includegraphics[width=\textwidth]{images/camera_model/table_cam_models.pdf}
\caption{시스템에 사용될 카메라 모델표. 행은 투영모델, 열은 왜곡모델이며 각각의 앞글자를 딴 조합}
\label{tab:camera_models}
\end{table}
\section{Camera Calibration and SfM}
\label{subsec:camera_calib_sfm}
카메라보정이란 주어진 카메라모델($\mathbf{P}$)의 파라미터를 계산하는 과정이다.
즉 $\mathbf{K}, \mathcal{P}, \mathcal{G}, \mathbf{R, t}$를 계산하는 과정이다.
적절한 카메라모델의 파라미터를 찾기 위해선 오차값을 최소화할 수식이 필요하다.
다양한 수식이 존재하지만, 대표적으론 투영값 오차를 최소화하는 것이다.
투영값 오차란 3차원 점($\mathbf{X}$)이 이미지 평면에 투영되었을 때의 위치 $\mathbf{\dot{p}}$와 실제 관찰된 점 $\mathbf{p}$의 위치 차이를 의미하며 수식은 다음과 같다.
\begin{equation}\label{eqn:res-pp}
e = \Vert
\mathbf{p} - \mathbf{K}\mathcal{GP}(\mathbf{RX}_w +\mathbf{t})
\Vert_2^2
= \Vert
\mathbf{p} - \mathcal{C}{(\mathbf{X}_w)}
\Vert_2^2
\end{equation}
\begin{equation}\label{eqn:sum-of-res}
\arg \min_{\mathbf{P}} \sum_i^N e = \sum_i^N \Vert
\mathbf{p} - \mathcal{C}{(\mathbf{X}_w)}
\Vert_2^2
\end{equation}
식 \ref{eqn:res-pp}의 $e$은 관찰된 픽셀과 투영된 픽셀간의 오차이다.
SfM은 보정되지 않은 여러장의 이미지를 기반으로 3차원 복원을 하는 기술이다.
오버랩이 많이 되는 이미지페어에서 특징점 매칭을 통해 3차원 점을 복원하고 해당 점을 기반으로 오차를 최소화하며 점과 카메라 모델을 최적화한다.
카메라 보정를 포함하는 개념으로 카메라 보정은 $\mathcal{C}$만 최적화하지만, SfM은 $\mathcal{C}, \mathbf{X}_w$를 함께 보정하는 것이 목적이다.
일반적으로 State-Of-The-Art 라고 알려진 COLMAP 이 대표적인 예시이다.
해당 논문은 도로가 갖는 지형적 특성, 주로 언덕,을 반영하기에 SfM 방식을 이용한 카메라 보정을 시스템에 사용한다.
\section{Overfitting and Cross Validation}
\label{subsec:ccv}
\begin{figure*}[t]
\centering
\begin{subfigure}[b]{0.49\textwidth}
\includegraphics[width=\textwidth]{images/references/distorted_image.png}
\caption{}
\label{fig:dimage}
\end{subfigure}
\hfill
\begin{subfigure}[b]{0.49\textwidth}
\includegraphics[width=\textwidth]{images/references/undistorted_image.png}
\caption{}
\label{fig:uimage}
\end{subfigure}
\caption{
한 장의 이미지를 기반으로 카메라 보정을 하는 예시이다.
사용된 체스보드 패턴은 4x5 패턴이다.
\ref{fig:dimage}이미지 중심에 체스보드 코너가 모여있는 것을 확인할 수 있다.
해당 코너 기반으로 최적화 후 왜곡 보정된 이미지가 \ref{fig:uimage}이다.
이를 통해 점의 집중된 분포에 따른 카메라 모델 오류 가능성을 예측할 수 있다.
}
\label{fig:overfitting-example}
\end{figure*}
해당 시스템은 0-1장의 이미지만을 사용한다.
또한 보정을 위해 사용되는 특징점은 도로마커를 사용한다.
위 둘의 특성상 CCTV 카메라 이미지에서 도로마커들의 분포가 집중될 수 있다.
이러한 특징점들을 기반으로 최적화를 하면 Figure \ref{fig:overfitting-example}과 같이 카메라 모델이 과적합되어 제대로된 왜곡보정을 할 수 없다.
본 시스템에서 생길 수 있는 카메라 보정 과적합 문제는 두 가지 이유로 정리한다.
첫 번째는 활용가능한 이미지의 수가 0장 혹은 최대 1장이다.
두 번째는 주어진 도로마커들이 CCTV 이미지의 한 곳에 집중 분포할 수 있다.
이들을 기반으로 모델을 최적화하면 잘못된 왜곡 파라미터를 얻을 수 있다.
% 이는 polynomial distortion 모델에서 자주 나타나는 현상이다.
본 논문은 이러한 점을 인지하여 학습 및 검증 데이터를 분리하여 모델의 과적합 정도에 대해 수치적으로 나타낸다.
이후 과적합률을 나타내는 지표는 다음과 같은 수식을 이용하여 표현한다.
\begin{equation}
O = \frac{\mathrm{RMSE}_{T}}{\mathrm{RMSE}_{V}} + \frac{\mathrm{RMSE}_{V}}{\mathrm{RMSE}_{T}}
\end{equation}
$O$는 과적합률을 의미한다. $\mathbf{RMSE}$는 Root Mean Square Error(이하 RMSE)를 의미한다.
해당 오차는 일반적으로 식 \ref{eqn:sum-of-res} 투영 오차에 루트를 씌운 값으로, 오차의 분포를 나타낸다.
학습 및 검증 RMSE 두 값이 서로 유사하다면 과적합률은 2에 가까워 질 것이고 두 값의 차이가 크다면 값은 2보다 커질 것이기에 $O$의 분포는 $[2,\infty]$ 값이 될 것이다.
이때, 값이 2에 가까울수록 학습 모델이 검증 모델과 비슷한 결과를 만들었다는 의미를 갖으며, 과적합이 덜 되었다고 판단한다.
\chapter{도심환경 다수 CCTV 캘리브레이션}\label{sec:system}
\section{System Overview}\label{sec:system-overview}
\begin{figure}[h] %%% 그림 바꿔야함.
\centering
\includegraphics[width=\linewidth]{images/references/urban_sfm_system.pdf}
\caption{시스템 다이어그램}
\label{fig:system-diagram}
\end{figure}
해당 시스템의 구성은 Figure \ref{fig:system-diagram}과 같다.
시스템의 각 요소는 아래와 같이 요약된다.
\begin{enumerate}
\item \textbf{Input}: 시스템 입력값
\begin{itemize}
\item 카메라 스펙: 이미지 해상도($H, W$), 카메라 화각($\theta_h, \theta_v$)
\item 인공위성 이미지: 도로마커 $\mathbf{X}_w$의 위경도 값을 추출하기 위한 지도
\item CCTV 카메라 이미지: 보정해야할 CCTV 카메라 이미지
\end{itemize}
\item \textbf{Initialization}: 최적화해야할 파라미터 초기화. 초기화할 파라미터는 표 \ref{tab:params-cam-terrain}을 따른다.
\begin{itemize}
\item Zero-shot-Calib and Init Camera Model: 카메라 모델 파라미터$\mathcal{C}$ 초기화
\item Estimate Location of Road Markers and Devided into Train/Valid Dataset: 인공위성 이미지와 CCTV 카메라 이미지로부터 도로마커의 3차원 위치 $\mathbf{X}_w$ 및 2차원 위치 $\mathbf{X}_d$ 추출 후 해당 데이터셋을 학습 및 검증 데이터셋으로 분리
\item OpenCV PnP: OpenCV PnP를 통해 카메라 초기 위치($\mathbf{T}$) 추정
\end{itemize}
\item \textbf{Optimization with Terrain Model}: 다양한 카메라 모델 및 지형지물에 따른 최적화 시도
\item \textbf{Evaluatation and Select Model}: 모델 최적화 후 해당 모델 기반으로 학습 RMSE 와 검증 RMSE를 비교 및 적절한 모델을 선택한다.
\end{enumerate}
\section{Initialization: Estimate Location of Road Markers}\label{subsec:estimate-loc-markers}
\begin{figure} %%% 그림 바꿔야함.
\centering
\includegraphics[width=\linewidth]{images/references/road_markers_in_satellite.png}
\caption{인공위성 영상과 로드마커}
\label{fig:satellite-view-roadmarkers}
\end{figure}
\begin{figure}
\centering
\includegraphics{images/references/roadmarker_selection.png}
\caption{로드마커 선택 방법}
\label{fig:roadmarker-selection}
\end{figure}
도로마커의 선택 방법은 Figure \ref{fig:roadmarker-selection}와 같이 인공위성 상에서 도로와 마커가 구분이 잘되는 직사각형의 코너를 선택한다.
선택한 도로마커의 3차원 위치($\mathbf{X}$)를 추출하기 위해 먼저 위경도 값을 추정한다.
위경도 값은 QGIS(\cite{QGIS_software}), Google Earth(\cite{google_earth}) 등 위경도 정보를 제공하는 사이트를 이용한다.
이를 UTM-K 좌표계로 변환하여 $\mathbf{X}_w$를 추정한다.
$\mathbf{X}_w$와 매칭된 CCTV 카메라 이미지 상의 도로마커($\mathbf{p}_d$)를 연결하는 그래프 데이터구조를 생성한다.
선택된 도로마커 예시는 \ref{fig:inited-roadmarkers}와 같다.
\begin{figure}
\centering
\includegraphics{images/references/satelliteview_images.png}
\caption{초기화된 도로마커 위치}
\label{fig:inited-roadmarkers}
\end{figure}
\begin{figure*}
% \centering
\begin{subfigure}[b]{0.45\textwidth}
\includegraphics[width=0.95\textwidth]{images/references/Kfold.png}
\caption{}
\label{fig:kf}
\end{subfigure}
\hfill
\begin{subfigure}[b]{0.53\textwidth}
\includegraphics[width=0.95\textwidth]{images/references/kfold_cross_validation_changed.png}
\caption{}
\label{fig:kfc}
\end{subfigure}
\caption{학습 및 검증 데이터셋 만드는 방법 + KFold 방식 예}
\label{fig: camera projection models}
\end{figure*}
선택된 도로마커 그룹을 학습과 검증 데이터셋으로 나눌 때 랜덤하게 나눌 수 없다.
랜덤하게 나누면 픽셀들이 이미지에 편향되어 분포 할 수 있기 때문이다.
그렇기에 본 논문은 K-Fold 교차검증과 유사한 방식으로 학습/검증 데이터셋을 나눈다.
Figure \ref{fig:kfc}와 같이 도로마커의 한 코너를 검증 데이터셋으로 하고 나머지 코너를 학습용으로 사용한다.
위 과정을 통해 $(\mathbf{X}_{w_T}, \mathbf{p}_{d_T}), (\mathbf{X}_{w_V}, \mathbf{p}_{d_V})$ 데이터셋을 생성한다.
\section{Initialization: Camera Model Initialization}\label{sec:camera-model-init}
\begin{figure*}[!th]
\centering
\begin{subfigure}[b]{0.3\textwidth}
\includegraphics[width=0.95\textwidth]{images/references/triangle.png}
\caption{}
\label{fig:fov}
\end{subfigure}
\hspace{10pt}
\begin{subfigure}[b]{0.425\textwidth}
\includegraphics[width=0.95\textwidth]{images/references/triangle_fish.png}
\caption{}
\label{fig:fov_fish}
\end{subfigure}
\caption{(a), (b)는 카메라 화각에 따른 초점거리 추정에 사용되는 일반적인 상황. (a)의 경우 표준화각의 카메라에 사용되는 그림. (b)의 경우 어안렌즈가 갖게되는 그림. 둘 다 동일한 해상도를 갖지만, 렌즈의 차이로 인해 어안렌즈의 투영과정에 왜곡 형성 }
\label{fig:triangles}
\end{figure*}
Figure \ref{fig:triangles}를 확인하면 Figure \ref{fig:triangles}의 (a)는 표준렌즈, (b)는 광각렌즈가 갖는 투영도이다.
위 투영도를 통해, 일반적으로 카메라의 화각과 해상도를 통해 초점거리를 예상할 수 있다.
하지만 (b)를 확인하면, 투영선이 왜곡된 것을 확인할 수 있다.
표준렌즈를 표현한 그림 (a)와 비교하면, (b)는 동일한 해상도를 갖지만 더 넓은 영역 정보를 투영시키는 광각 렌즈를 사용하기에 왜곡이 발생한 것이다.
이같은 경우 (b)의 왜곡된 해상도를 보정한 해상도 $\mathcal{G}^{-1}(W)$를 이용해서 어안렌즈의 초점거리를 예상할 수 있다.
관련된 내용은 논문 \cite{zeroshot}을 통해 확인할 수 있다.
본 논문은 위 논문을 통해 초기 초점거리를 추론한다.
왜곡 파라미터를 최적화하여 카메라 모델의 초기화를 마친다.
이때 사용되는 세 가지 왜곡모델 중 polynomial의 경우만 최적화가 필요하다.
이는 field-of-view 왜곡 모델의 왜곡 계수는 카메라의 화각을 필요로 하고 equidistant 왜곡 모델은 왜곡 계수가 존재하지 않는다.
왜곡 파라미터를 최적화하기 위해 왜곡 보정 전/후 픽셀데이터가 필요하다.
해당 시스템은 $k_1, k_2$ 중 $k_1$만 최적화하며, $k_2=0$으로 초기화한다.
$k_1$은 수식 (\ref{eqn: init polynomial distort coefficients}) ~ (\ref{eqn: last step of init polynomial distort coefficient})을 이용해 초기화된다.
\begin{align}
\begin{bmatrix}
u_d \\
v_d \\
\end{bmatrix} = \begin{bmatrix}
f(1+k_1\theta^2)x_u+c_x \\
f(1+k_1\theta^2)y_u+c_y
\end{bmatrix}
\label{eqn: init polynomial distort coefficients} \\
\begin{bmatrix}
u_d-c_x-fx_u \\
v_d-c_y-fy_u
\end{bmatrix}=f\begin{bmatrix}
x_u\theta^2\\
y_u\theta^2
\end{bmatrix} k_1
\label{eqn: step 2 of init polynomial distort coefficient} \\
\begin{bmatrix}
u_{d1}-c_{x1}-fx_{1u} \\
v_{d1}-c_{y1}-fy_{1u} \\
\vdots
\end{bmatrix} = f\begin{bmatrix}
x_{u1}\theta_{1}^2\\
y_{u1}\theta_{1}^2\\
\vdots
\end{bmatrix} k_1 \label{eqn: last step of init polynomial distort coefficient}
\end{align}
초기 왜곡보정은 $\mathbf{PP}$를 통해 초기화된다.
$x_u, y_u$는 왜곡이 보정된 정규화된 이미지 위의 값이다.
$u_d, v_d$는 왜곡된 픽셀이다.
fov 왜곡모델의 경우 카메라의 수평방향 화각으로 초기화한다.
equidistant 왜곡 모델의 경우 초기화가 필요하지 않다.
\section{Optimization: Optimize with Terrain Models}\label{subsec:opt-w-tmodel}
\begin{figure}
\centering
\includegraphics{images/references/terrains.png}
\caption{최적화에 사용될 지형모델}
\label{fig:terrains}
\end{figure}
본 논문은 지형지물의 최적화를 위해 두 가지 사항을 고려한다.
첫 번째는 \textbf{지형지물의 형태}이다.
앞선 연구 논문들의 한계로는 도로의 높이가 일정하다는 가정으로, 2차원 평면 모델처럼 가정하였다.
하지만 실제 도로는 3차원 공간에 존재하며 높이 변화가 급격하다면 해당 지형지물의 형태를 고려해야한다.
이러한 문제를 수학적 모델로 고려한 것이 지형모델의 목적이다.
두 번째는 \textbf{과적합 방지}이다.
파라미터 수가 많을 수록 모델은 모델에 과적합 될 것이다.
그렇기에 본 논문은 수학적으로 적절한 모델을 디자인하며 파라미터 수는 줄이는 형태를 제안한다.
본 논문은 Figure \ref{fig:terrains}의 지형모델 총 4 가지 모델을 제안한다.
각 모델의 이름은 $\mathbf{\bar{X}\bar{Y}\bar{Z}}, \mathbf{\bar{X}\bar{Y}Z}_{\phi}, \mathbf{\bar{X}\bar{Y}Z}, \mathbf{{X}{Y}{Z}}$이다.
$\mathbf{\bar{X}}$의 의미는 해당 파라미터는 최적화 시키지 않고 초기값을 그대로 사용한다는 뜻이다.
첫 번째 모델 $\mathbf{\bar{X}\bar{Y}\bar{Z}}$은 도로마커를 최적화하지 않는다는 뜻이다.
이는 초기 도로마커 값을 완전히 신뢰한다는 뜻이다.
두 번째 모델 $\mathbf{\bar{X}\bar{Y}Z}_{\phi}$은 도로마커의 $x, y$ 값은 신뢰하지만 $z$값은 신뢰하지 못하기에 최적화 한다는 뜻 이다.
해당 모델의 $z$값 최적화 방법은 동일한 언덕위에 존재하는 모든 도로마커들은 공통된 $\phi$라는 값을 통해 $z$ 값이 조정될 것이라 가정한다.
세 번째 모델 $\mathbf{\bar{X}\bar{Y}Z}$은 앞선 모델과 동일하게 $z$ 값 만을 최적화 하지만, 각 도로마커들이 고유의 $z$값을 기반으로 최적화 될 것임을 가정한다.
마지막 모델 $\mathbf{{X}{Y}{Z}}$은 일반적으로 사용하는 bundle adjustment와 동일하게 최적화한다.
위 모델들을 통해 최적화되는 파라미터 수는 Table \ref{tab:opt-for-terrains}를 따른다.
표의 행은 모델, 1에서 3열은 최적화되는 파라미터, 4열은 최적화 되는 파라미터 수 이다.
$N$은 최적화되는 파라미터 수를 의미한다.
$c^*$은 언덕의 개수를 의미한다.
언덕의 개수에 따라 $\phi$의 개수를 정한다.
$n$은 사용되는 도로마커의 점의 개수이다..
Table \ref{tab:opt-for-terrains}의 행이 내려갈 수록 최적화 되는 파라미터 수가 커진다.
\begin{table}[th]
\centering
\includegraphics[width=0.6\textwidth]{images/tables/table_terrains.png}
\caption{최적화에 사용될 지형지물 파라미터.}
\label{tab:opt-for-terrains}
\end{table}
\begin{figure}[th]
\centering
\includegraphics[width=0.75\textwidth]{images/opt/opt_bundle_3d_world.png}
\caption{최적화 예시. 3차원 공간}
\label{fig:optimization-3d-world}
\end{figure}
\begin{figure}[th]
\centering
\includegraphics{images/opt/opt_bundle_2d_image.png}
\caption{최적화 예시. 2차원 이미지 평면}
\label{fig:optimization-2d-images}
\end{figure}
최적화 방법은 일반적으로 알려진 bundle adjustment를 사용한다.
Bundle adjustment란 Figure \ref{fig:optimization-3d-world}, \ref{fig:optimization-2d-images}와 같이 3차원 공간에서 추정한 $\mathbf{X}_w_j$를 각 카메라 $C_i$로 투영 시킨 후 관찰된 픽셀 $\mathbf{p_j^i}$와의 거리 오차를 줄이며 주어진 파라미터 $\mathbf{P}$를 최적화 하는 기법이다.
일반적으로 카메라 파라미터($\mathcal{C}$)와 3차원 점($\mathbf{X}$)를 최적화한다.
본 논문에서는 앞서 제시한 지형모델을 이용한 최적화를 시도한다.
목적함수는 \ref{eqn:obj-func} 와 같다.
최적화할 파라미터는 Table \ref{tab:params-cam-terrain}와 같다.
\begin{equation}\label{eqn:obj-func}
{\arg \min_\mathbf{P}} \sum_{i=1} \sum_{j=1}
\Vert
\mathbf{p}_j^i - \mathcal{C}(\mathbf{X_j})
\Vert _2^2
\end{equation}
\section{Evaluation: Evaluate and Select Model}\label{subsec:eval-select}
앞서 설명한 카메라 모델 및 지형지물 모델을 조합하면 Table \ref{tab:params-cam-terrain}와 같다.
본 논문에서 제안하는 시스템은 주어진 Table \ref{tab:params-cam-terrain} 중 가장 적절한 모델을 선택하는 수식 \ref{eqn:model-select}을 제안한다.
모델 선택의 과정은 아래와 같다.
\begin{enumerate}
\item 24 가지 모델 중 하나를 선택한다.
\item 해당 모델을 총 네 번의 교차검증 과정을 통해 학습 및 검증 RMSE를 측정한다.
\item 네 번의 교차 검증 RMSE의 평균값을 통해 학습 RMSE 표, 검증 RMSE 표를 생성한다.
\item 수식 \ref{eqn:model-select}를 두 표 데이터 값을 이용해 계산한다.
\item 가장 낮은 값을 기록한 모델 조합을 사용한다.
\end{enumerate}
\begin{table}
\centering
\includegraphics[height=0.95\textheight]{images/tables/table_cam_terrain.png}
\caption{최적화에 사용될 카메라 모델 및 지형지물 조합표}
\label{tab:params-cam-terrain}
\end{table}
% S = \frac{\lambda_T}{\mathrm{RMSE}_T} + \frac{\lambda_V}{\mathrm{RMSE}_V} + \frac{\mathrm{RMSE}_T} {\mathrm{RMSE}_V}
\begin{equation}\label{eqn:model-select}
% S = (
% \frac{\mathrm{RMSE}_T}{\mathrm{RMSE}_V} +
% \frac{\mathrm{RMSE}_V}{\mathrm{RMSE}_T})
% \mathrm{RMSE}_T^{\lambda_{T}} \mathrm{RMSE}_V^{\lambda_{V}}
S = (
\frac{\mathrm{R}_T}{\mathrm{R}_V} +
\frac{\mathrm{R}_V}{\mathrm{R}_T})
\mathrm{R}_T^{\lambda_{T}} \mathrm{R}_V^{\lambda_{V}}
\end{equation}
\begin{figure*}[th]
\centering
\begin{subfigure}[b]{0.45\textwidth}
\includegraphics[width=0.95\textwidth]{images/overfitting_score.png}
\caption{Graph of Overfitting Score}
% \label{fig:kf}
\end{subfigure}
\begin{subfigure}[b]{0.45\textwidth}
\includegraphics[width=0.95\textwidth]{images/model_selection_function.png}
\caption{Graph of Model Selection Score}
% \label{fig:kf}
\end{subfigure}
\caption{각각은 과적합률과 모델 선택 지표의 3차원 그래프}
\label{fig:function-of-criteria}
\end{figure*}
수식 \ref{eqn:model-select}의 구성은 아래와 같다.
$\mathrm{R}_T$는 학습 RMSE 값, $\mathrm{R}_V$는 검증 RMSE 값, $\lambda_T, \lambda_V$는 학습 및 검증 목표 RMSE 값이다.
$\frac{\mathrm{R}_T}{\mathrm{R}_V} + \frac{\mathrm{R}_V}{\mathrm{R}_T}$는 앞서 설명한 과적합 점수이다.
% 이후 과적합 점수는 크지만 앞선 학습 및 검증 RMSE 값이 모두 작다면 이 또한 선택해야하는 지표로 사용되어야 한다.
하지만 앞선 RMSE 값들의 크기 또한 중요하다.
그렇기에 과적합 점수에 RMSE 크기를 반영하는 수식 $\mathrm{R}_T^{\lambda_{T}} \mathrm{R}_V^{\lambda_{V}}$을 곱해준다.
$\lambda_T, \lambda_V$는 사용자 정의 파라미터이며 각 학습 및 검증 RMSE의 가중치이다.
모델 선택 지표의 그 특성상 $\lambda_T, \lambda_V$는 [0, 1] 사이의 값이여야 한다.
해당 모델 선택 지표 $S$를 통해 학습 RMSE, 검증 RMSE, 과적합률 모두를 한번에 볼 수 있는 장점이 있으며 이들의 분포는 \ref{fig:function-of-criteria}와 같다.
x, y 값이 커져도 두 값이 유사하면 과적합 점수 그래프에선 그 값이 2로 유지된다.
하지만 모델 선택 지표에서는 xy 값을 반영하여 그 값이 더 커진다.
모델 선택 지표 값이 낮을 수록 해당 모델은 과적합이 덜 되었고 학습 및 검증 RMSE가 낮다.
이후의 분석 표에서 모델 선택 지표 값이 낮은 모델 조합을 선택하여 최적화 결과를 분석한다.
% $\frac{\lambda}{\mathrm{RMSE}}$는 학습 및 검증 목표 RMSE 값 달성율이다.
% 즉 해당 값이 높을 수록 목표 값에 달성했음을 알 수 있다.
% $\frac{\mathrm{RMSE}_T}{\mathrm{RMSE}_V}$는 학습모델과 검증모델의 유사도이자 과적합 여부를 판단하는 값 $O$이다.
% 이 같은 방식을 각 코너에 모두 적용한 후 4번에 걸쳐 진행한다.
% 이후 총 학습 및 검증 $\mathrm{RMSE_T}, \mathrm{RMSE_V}$의 평균을 평가한다.