iBims-1

iBims-1 (independent Benchmark images and matched scans - version 1) ist ein neuer, qualitativ hochwertiger RGB-D-Datensatz, der speziell für das Testen von Methoden zur monokularen Tiefenschätzung (single-image depth estimation, SIDE) entwickelt wurde. Mit einem speziellen Aufnahme-Setup, bestehend aus einer digitalen Spiegelreflexkamera (DSLR) und einem hochpräzisen Laserscanner, wurden hochauflösende Bilder und hochgenaue Tiefenkarten von verschiedenen Szenarien in Innenräumen aufgenommen.
Im Vergleich zu verwandten RGB-D-Datensätzen zeichnet sich iBims-1 durch einen sehr niedrigen Rauschpegel, scharfe Tiefenübergänge, keine Verdeckungen und hohe Tiefenbereiche aus.

Unser Datensatz besteht aus den folgenden Komponenten:

  1. Kerndatensatz:
    • 100 RGB-D-Bildpaare verschiedener Innenraumszenen in hoher und niedriger Auflösung
    • Masken für ungültige, transparente und flächige Bereiche (Tische, Böden, Wände)
    • Masken für deutliche Tiefenübergänge
    • Kamera-Kalibrierungsparameter
  2. Erweiterung:
    • 56 verschiedene Farb- und Geometrieerweiterungen für jedes Bild des Kerndatensatzes
    • Zusätzliche handgehaltene Bilder zum Testen von MVS-Methoden
    • Bilder von gedruckten Mustern und Fotos, die an einer Wand angebracht sind, um die Leistung von texturierten, ebenen Oberflächen zu beurteilen
    • Mehrere RGB-D-Bildsequenzen von statischen Szenen mit variierender Beleuchtungsstärke

Leaderboard

Method Standard-Metriken (σ= 1.25i) PE (cm/°) DBE (px) DDE (%) für d = 3m
  rel log10 RMS σ1 σ2 σ3 εplan εorie εacc εcomp ε0 ε- ε+
Eigen (2014) 0.32 0.17 1.55 0.36 0.65 0.84 7.70 24.91 9.97 9.99 70.37 27.42 2.22
Eigen  (2015) (AlexNet) 0.30 0.15 1.38 0.40 0.73 0.88 7.52 21.50 4.66 8.68 77.48 18.93 3.59
Eigen (2015) (VGG) 0.25 0.13 1.26 0.47 0.78 0.93 5.97 17.65 4.05 8.01 79.88 18.72 1.41
Laina  (2016) 0.26 0.13 1.20 0.50 0.78 0.91 6.46 19.13 6.19 9.17 81.02 17.01 1.97
Liu (2015) 0.30 0.13 1.26 0.48 0.78 0.91 8.45 28.69 2.42 7.11 79.70 14.16 6.14
Li (2017) 0.22 0.11 1.09 0.58 0.85 0.94 7.82 22.20 3.90 8.17 83.71 13.20 3.09
Liu (2018) 0.29 0.17 1.45 0.41 0.70 0.86 7.26 17.24 4.84 8.86 71.24 28.36 0.40
Ramamonjisoa (2019) 0.26 0.11 1.07 0.59 0.84 0.94 9.95 25.67 3.52 7.61 84.03 9.48 6.49

Beispielbilder

Inhalte des Kerndatensatzes

RGB-Bilder und korrespondierende Tiefenkarten, aufgenommen mit einer kalibrierten DSLR-Kamera und einem hochwertigen terrestrischen Laserscanner. Die Bildpaare sind in zwei verschiedenen Größen erhältlich, nämlich als HD-Version mit einer Auflösung von 1500 × 1000 px und als VGA-Version mit einer Auflösung von 640 × 480 px sowohl für RGB- als auch für Tiefenkarten. Beachten Sie, dass die VGA-Version mit dem beliebten NYU-v2-Datensatz kompatibel ist und dass die niedrig aufgelösten Tiefenkarten direkt aus der Punktwolke berechnet werden und nicht nur aus der HD-Version heruntergerechnet werden.

Darüber hinaus werden Pixelmasken für transparente und ungültige Tiefenbereiche, beschreibende ebene Regionen (für drei verschiedene Kategorien: Wände, Böden, Tische) und Masken für eindeutige Tiefenübergänge bereitgestellt. 

Spezifikationen

Anzahl der RGB-D-Bildpaare: 100
Auflösung (hoch): 1500 × 1000 px
Auflösung (niedrig): 640 × 480 px
Tiefenbereich: 0.1m – 50m
Ebenenmasken: 244 (Wand: 140, Tisch: 53, Boden: 51)

Erweiterungen

Um die Robustheit von Einzelbild-Tiefenschätzungsmethoden in Bezug auf einfache geometrische und farbliche Transformationen und Rauschen zu bewerten, haben wir einen Satz von erweiterten Bildern aus unserem iBims-1-Kerndatensatz abgeleitet.
Die Erweiterungen umfassen horizontales und vertikales Spiegeln sowie das Vertauschen von Bildkanälen, das Dehnen von Histogrammen, Änderungen von Farbton und Sättigung, Unschärfe und das Hinzufügen von Rauschen zu den Bildern.

Dieser Datensatz umfasst zusätzliche handgehaltene Bilder für viele Szenen des iBims-1-Kerndatensatzes mit Blickpunktveränderungen gegenüber den Referenzbildern, was die Validierung von Multiview-Stereo-Algorithmen mit hochwertigen Ground-Truth-Tiefenkarten ermöglicht.

Dieser Satz zusätzlicher Bilder enthält Sonderfälle, von denen erwartet wird, dass sie Einzelbild-Tiefenschätzungsmethoden in die Irre führen. Diese zeigen gedruckte Muster aus dem NYU-v2-Datensatz und gedruckte schwarz-weiße Muster aus dem Pattern-Datensatz, die an einer Wand hängen. Diese sollen wertvolle Erkenntnisse liefern, da sie zeigen, welche Art von Bildmerkmalen Einzelbild-Tiefenschätzungsmethoden ausnutzen. Für diese Bilder werden keine Tiefenkarten bereitgestellt, da der interessierende Bereich annähernd planar sein sollte und Tiefenschätzungen daher leicht qualitativ zu beurteilen sind.

Format und Download

Der Datensatz sowie weitere Informationen stehen auf MediaTUM zum Download (Web, FTP) bereit. 

Referenzen

Wenn dieser Datensatz für Ihre Forschung nützlich ist, ziehen Sie bitte in Betracht, unsere veröffentlichten Arbeiten zu zitieren.

  • Koch, Tobias; Liebel, Lukas; Körner, Marco; Fraundorfer, Friedrich: Comparison of monocular depth estimation methods using geometrically relevant metrics on the IBims-1 dataset. Computer Vision and Image Understanding (CVIU) 191, 2020, 102877 mehr… BibTeX Volltext ( DOI )
  • Koch, Tobias; Liebel, Lukas; Fraundorfer, Friedrich; Körner, Marco: Evaluation of CNN-Based Single-Image Depth Estimation Methods. Proceedings of the European Conference on Computer Vision Workshops (ECCV-WS), Springer International Publishing, 2019, 331-348 mehr… BibTeX Volltext ( DOI )