Diese Arbeit beschäftigt sich mit dem Transport von Mediendaten in panoramischen und omnidirektionalen Videoformaten, die typischerweise einen größeren Blickwinkel als klassische Videoformate abbilden. Der Transport von solchen Mediadaten stellt hohe Anforderungen an verschiedene Stellen der Übertragungskette wie z.B. bei der Aufbereitung der Videoinhalte zum Transport, der eigentlichen Übertragung, sowie auf der Empfängerseite.
Im Besonderen wurden in dieser Arbeit Methoden entwickelt, die es zum Ziel haben die Übertragungsrate zu reduzieren ohne die wahrgenommene Videoqualität zu verringern.
Zur allgemeinen Übersicht bezüglich panoramischem und omnidirektionalem Video gibt Kapitel 1 eine Einführung zu den besonderen Kodierungs- und Übertragungstechniken für derartige Videoformate sowie eine Zusammenfassung des Standes der Technik. In diesem Kapitel ist der Stand der Technik zusammengefasst, der relevant für die in Kapitel 2 bis 6 präsentierten Arbeiten ist. Die Grundidee der vorliegenden Arbeit ist, das Video in mehrere Kacheln zu unterteilen und die Relevanz für den Nutzer bei ihrer Übertragung zu beachten. Das heißt im Fall der Übertragung von panoramischem Video nur die Videobereiche zu übertragen, die der Nutzer auch betrachtet. Außerdem stehen die Videokacheln für die Übertragung von omnidirektionalem Video in mehreren Auflösungen zur Verfügung. In diesem Anwendungsszenario werden alle Kacheln übertragen wobei die Qualität der einzelnen Kacheln in Abhängigkeit der Nutzerblickrichtung gewählt wird. Das heisst dass Videokacheln in höherer Auflösung übertragen werden, wenn sie im Blickfeld des Nutzers liegen verglichen mit Kacheln, die außerhalb des Blickfelds liegen. Eine schnelle Anpassung an Änderungen der Nutzerblickrichtung ist auch hier essentiell damit dem Nutzer Kacheln in niedriger Auflösung nicht über längere Zeit hinweg gezeigt werden.
Kapitel 2 beschäftigt sich mit einer optimierten Aufbereitung von Panoramavideos. Hierzu ist ein parametrisches Model abgeleitet worden, das erlaubt, basierend auf Komplexitätsmetriken für Videoinhalte die zusätzliche Bitrate abzuschätzen, die durch das Unterteilen des Videos in Kacheln erforderlich wird. Die prädizierte zusätzliche Bitrate erlaubt es, die tatsächliche durchschnittliche Übertragungsrate abzuschätzen und damit eine optimale Aufteilung zu finden, die die Übertragungsrate minimiert.
In Kapitel 3 ist eine Technik beschrieben, die es erlaubt mehrere separat kodierte Videos mit geringem Aufwand in einem einzigen Videostrom zu vereinen. Die Technik, die solch eine Operation erlaubt, erfordert eine spezielle Kodierung der Videoinhalte bei der verschiedene Beschränkungen auf Encoderseite eingehalten werden müssen. Die Einschränkungen bei der Videoerstellung, die in diesem Kapitel aufgeführt werden, betreffen den High Efficiency Video Coding (HEVC)-Standard und seine Erweiterungen Scalable High Efficiency Video Coding (SHVC) und Multiview High Efficiency Video Coding (MV-HEVC). Durch die beschriebenen Techniken ist die Nutzung sogenannter Open-GOP-Kodierungskonfigurationen im Fall von SHVC möglich, die eine effizientere Kodierung des Videoinhalts für panoramische Videoapplikationen erlauben. Ergebnisse der entwickelten Techniken im Vergleich zum Stand der Technik werden ebenso präsentiert.
Kapitel 4 beschäftigt sich mit einem Algorithmus, der für die interaktive Übertragung von Panoramavideos über das HTTP Protokoll entwickelt worden ist. Im Besonderen wird in diesem Kapitel ein Augenmerk darauf gelegt, dass ein Dynamic Adaptive Streaming Over HTTP (DASH)-Empfänger mit geringer Latenz auf die Interaktion des Nutzers reagieren kann und seine Entscheidung darüber Teile des Videos herunterzuladen anpassen kann. Typischerweise bauen DASH Ratenadaptionsalgorithmen einen Puffer von mehreren Sekunden Videolänge auf um Durchsatzvariationen des Netzwerks zu bewältigen. So eine Lösung ist jedoch bei dem in diesem Teil der Arbeit betrachteten Anwendungsszenario nicht praktikabel. Deswegen wird in Kapitel 4 ein DASH-Ratenadaptionsalgorithmus beschrieben, der mit den notwendigen kleinen Puffergrößen funktioniert.
Eine Optimierung der Mediensegmentlängen bei der alle Segmente mit einem zeitlich unabhängig kodierten Random Access Point (RAP) erstellt worden sind, wird in Kapitel 5 beschrieben. Einerseits erlaubt ein kurzer RAP-Abstand beim Kachel-basierten Streaming schnell auf Änderungen der Nutzerorientierung zu reagieren. Andererseits wird dadurch die Kodiereffizienz des Videostroms drastisch reduziert. Das Kapitel 5 eröffnet eine Lösungsstrategie die dabei helfen kann den optimalen RAP Abstand zu bestimmen. Dabei wird sichergestellt, dass Kacheln in niedriger Auflösung dem Nutzer nicht länger als eine bestimmte Zeit mit einer bestimmten Wahrscheinlichkeit präsentiert werden.
Kapitel 6 beschäftigt sich mit der Prädiktion der Blickrichtung eines Nutzers innerhalb eines omnidirektionalen Videos in der Übertragungskette. Basierend auf einer Prädiktion der Nutzerblickrichtung durch Geschwindigkeit und Beschleunigung des Kopfes, ist ein Algorithmus zur Steuerung des Empfängerverhaltens entwickelt worden, der die Qualität der angeforderten Videokacheln bestimmt. Die Idee dahinter ist die Qualität der Prädiktion einzuschätzen und die Empfängerentscheidungen entsprechend zu beeinflussen. Gemessen am Stand der Technik werden im Kapitel 6 signifikante Gewinne des vorgeschlagenen Algorithmus gezeigt.
In Kapitel 7 ist die englische Zusammenfassung dieser Arbeit mit einer generellen Diskussion zum Ausblick und potentiellen weiterführenden Forschungsthemen zu finden.
Yago Sánchez de la Fuente
360° video streaming Field of View (FoV) High resolution video streaming Panorama Panorama video streaming Panorama-Videostreaming Panoramavideo-Streaming Panoramavideostreaming Panoramic video streaming Panoramic video streaming Region-of-Interest (RoI) Streaming von hochauflösenden Videos VR streaming VR-streaming high-resolution videos