УДК 004.8, 004.62
В.В. САВІН
Національний технічний університет України «Київський політехнічний інститут
імені Ігоря Сікорського», Київ, Україна,
vladimyr.savin@gmail.com
О.О. КОЛОДЯЖНА
Національний технічний університет України «Київський політехнічний інститут
імені Ігоря Сікорського», Київ, Україна,
kolodyazhna.lena@gmail.com
АДАПТАЦІЯ ТЕХНОЛОГІЇ NEURAL RADIANCE FIELDS (NeRF)
ДЛЯ ЗАДАЧІ 3D-РЕКОНСТРУКЦІЇ СЦЕНИ В УМОВАХ
ДИНАМІЧНОГО ОСВІТЛЕННЯ
Анотація. Розглянуто проблему синтезу нових зображень сцени з використанням технології Neural Radiance Fields (NeRF) для середовища з динамічним освітленням. Для навчання NeRF моделей використано фотометричну функцію втрат, тобто попіксельну різницю між значеннями інтенсивності зображень сцени та зображень, згенерованих за допомогою NeRF. Для відбивних поверхонь інтенсивність зображення залежить від кута спостереження. Цей ефект враховано шляхом використання напрямку променя як вхідного параметра моделі NeRF. Для сцен з динамічним освітленням інтенсивність зображення залежить не лише від позиції та напрямку спостереження, а й від часу. Показано, що зміна освітлення впливає на навчання NeRF із стандартною фотометричною функцією втрат і зумовлює зниження якості отриманих зображень та карт глибин. Щоб подолати цю проблему, запропоновано ввести час як додатковий вхідний аргумент до моделі NeRF. Експерименти, проведені на наборі даних ScanNet, свідчать про те, що NeRF зі зміненим входом перевершує оригінальну версію моделі та генерує більш послідовні й цілісні 3D-структури. Результати цього дослідження можна використати для покращення якості аугментації навчальних даних для навчання моделей передбачення відстані (наприклад, моделей depth-from-stereo, які забезпечують передбачення глибини/відстані на основі стереоданих) для сцен з нестатичним освітленням.
Ключові слова: комп’ютерний зір, технологія Neural Radiance Fields, динамічне освітлення, синтез даних, 3D-реконструкція сцени.
повний текст
СПИСОК ЛІТЕРАТУРИ
- Tardon L., Barbancho I., Alberola-Lopez C. Markov random fields in the context of stereo vision. In: Advances in Theory and Applications of Stereo Vision. Bhatti A. (Ed.). IntechOpen, 2011. 366 p. https://doi.org/10.5772/12953 .
- Zhu S., Yan L. Local stereo matching algorithm with efficient matching cost and adaptive guided image filter. The Visual Computer. 2017. Vol. 33, Iss. 9. P. 1087–1102. https://doi.org/10.1007/s00371-016-1264-6 .
- Bleyer M., Rhemann C., Rother C. PatchMatch stereo - stereo matching with slanted support windows. Proc. 2011 British Machine Vision Conference (BMVC 2011) (29 August – 2 September 2011, Dundee, UK). Dundee, 2011. 11 p. URL: https://api.semanticscholar.org/CorpusID:1798946.
- Laga H., Jospin L.V., Boussaid F., Bennamoun M. A survey on deep learning techniques for stereo-based depth estimation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020. Vol. 44, N 4. P. 1738–1764. http://dx.doi.org/10.1109/TPAMI.2020.3032602.
- Watson J., Aodha O.M., Turmukhambetov D., Brostow G.J., Firman M. Learning stereo from single images. Proc. 16th European Conference on Computer Vision (ECCV 2020) (23–28 August 2020, Glasgow, UK). Glasgow, 2020. Lecture Notes in Computer Science. Vol. 12346. P. 722–740. https://doi.org/10.1007/978-3-030-58452-8_42.
- Mildenhall B., Srinivasan P.P., Tancik M., Barron J.T., Ramamoorthi R., Ng R. NERF: Representing scenes as neural radiance fields for view synthesis. Proc. 16th European Conference on Computer Vision (ECCV 2020) (23–28 August 2020, virtual). Lecture Notes in Computer Science. 2020. Vol. 12346. P. 405–421. https://doi.org/10.1007/978-3-030-58452-8_24 .
- Moreau A., Piasco N., Tsishkou D., Stanciulescu B., de La Fortelle A. LENS: Localization enhanced by NeRF synthesis. Proc. 5th Conference on Robot Learning (8–11 November 2021, London, UK). London, 2021. Vol. 164, P. 1347–1356. ttps://doi.org/10.48550/arXiv.2110.06558 .
- Godard C., Aodha O.M., Brostow G.J. Unsupervised monocular depth estimation with left-right consistency. Proc. 2017 IEEE Conference on Computer Vision and Pattern Recognition (21–26 July 2017, Honolulu, HI, USA). Honolulu, 2017. P. 6602–6611. .
- Li H., Gordon A., Zhao H., Casser V., Angelova A. Unsupervised monocular depth learning in dynamic scenes. Proc. 2020 Conference on Robot Learning (16–18 November 2020, virtual). 2021. Vol. 155. P. 1908–1917. https://doi.org/10.48550/arXiv.2010.16404.
- Wang K., Zhang Z., Yan Z., Li X., Xu B., Li J., Yang J. Regularizing nighttime weirdness: Efficient self-supervised monocular depth estimation in the dark. Proc. 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (10–17 October 2021, Montreal, QC, Canada). Montreal, 2021. P. 16035–16044. https://doi.ieeecomputersociety.org/10.1109/ICCV48922.2021.01575.
- Kolodiazhna O., Savin V., Uss M., Kussul N. 3D scene reconstruction with neural radiance fields (NeRF) considering dynamic illumination conditions. Proc. 11th International Conference on Applied Innovations in IT (ICAIIT 2023) (9 March 2023, Kothen, Germany). Kothen, 2023. Vol. 11. P. 233–238. https://doi.org/10.25673/101943.
- Dai A., Chang A.X., Savva M., Halber M., Funkhouser T., Niebner M. ScanNet: Richly-annotated 3D reconstructions of indoor scenes. Proc. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (21–26 July 2017, Honolulu, HI, USA). Honolulu, 2017. P. 2432–2443. https://doi.org/10.48550/arXiv.1702.04405.
- Waechter M., Moehrle N., Goesele M. Let there be color! Large-scale texturing of 3D reconstructions. Proc. 13th European Conference on Computer Vision (ECCV 2014) (6–12 September 2014, Zurich, Switzerland). Zurich, 2014. Lecture Notes in Computer Science. Vol. 8693. P. 836–850. https://doi.org/10.1007/978-3-319-10602-1_54.
- Jiang C.M., Sud A., Makadia A., Huang J., Niener M., Funkhouser T. Local implicit grid representations for 3D scenes. Proc. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (13–19 June 2020, Seattle, WA, USA). Seattle, 2020. P. 6000–6009. https://doi.ieeecomputersociety.org/10.1109/CVPR42600.2020.00604.
- Penner E., Zhang L. Soft 3D reconstruction for view synthesis. ACM Transactions on Graphics. 2017. Vol. 36, Iss. 6. P. 1–11. https://doi.org/10.1145/3130800.3130855 .
- Lin C.-H., Ma W.-C., Torralba A., Lucey S. BARF: Bundle-adjusting neural radiance fields. Proc. 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (10–17 October 2021, Montreal, QC, Canada). Montreal, 2021. P. 5721–5731. http://dx.doi.org/10.1109/ICCV48922.2021.00569.
- Chen A., Xu Z., Zhao F., Zhang X., Xiang F., Yu J., Su H. MVSNeRF: Fast generalizable radiance field reconstruction from multi-view stereo. Proc. 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (10–17 October 2021, Montreal, QC, Canada). Montreal, 2021. P. 14104–14113. https://doi.ieeecomputersociety.org/10.1109/ICCV48922.2021.01386 .
- Wei Y., Liu S., Rao Y., Zhao W., Lu J., Zhou J. NerfingMVS: Guided optimization of neural radiance fields for indoor multi-view stereo. Proc. 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (10–17 October 2021, Montreal, QC, Canada). Montreal, 2021. P. 5590–5599. https://doi.ieeecomputersociety.org/10.1109/ICCV48922.2021.00556.
- Schnberger J.L., Frahm J.-M. Structure-from-motion revisited. Proc. 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (27–30 June 2016, Las Vegas, NV, USA). Las Vegas, 2016. P. 4104–4113. https://doi.org/10.1109/CVPR.2016.445.
- Roessle B., Barron J.T., Mildenhall B., Srinivasan P.P., Niebner M. Dense depth priors for neural radiance fields from sparse input views. Proc. 2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (18–24 June 2022, New Orleans, LA, USA). New Orleans, 2022. P. 12882–12891. https://doi.ieeecomputersociety.org/10.1109/ CVPR52688.2022.01255.
- Li Z., Niklaus S., Snavely N., Wang O. Neural scene flow fields for space-time view synthesis of dynamic scenes. Proc. 2021 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (20–25 June 2021, Nashville, TN, USA). Nashville, 2021. P. 6498–6508. https://doi.org/10.1109/CVPR46437.2021.00643.
- Roberts M., Ramapuram J., Ranjan A., Kunar A., Bautista M.A., Paczan N., Webb R., Susskind J.M. Hypersim: A photorealistic synthetic dataset for holistic indoor scene understanding. Proc. 2021 IEEE/CVF International Conference on Computer Vision (ICCV) (10–17 October 2021, Montreal, QC, Canada). Montreal, 2021. P. 10892–10902. https://doi.ieeecomputersociety.org/10.1109/ICCV48922.2021.01073.
- Kajiya J.T., Herzen B.V. Ray tracing volume densities. ACM SIGGRAPH Computer Graphics. 1984. Vol. 18, N 3. P. 165–174. https://doi.org/10.1145/964965.808594.
- Kusupati U., Cheng S., Chen R., Su H. Normal assisted stereo depth estimation. Proc. 2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR) (13–19 June 2020, Seattle, WA, USA). Seattle, 2020. P. 2186–2196. http://dx.doi.org/10.1109/CVPR42600.2020.00226.