Spatiotemporal Structuring of Compressed Videos Based on Motion Information

Language
en
Document Type
Doctoral Thesis
Issue Date
2007-04-24
Issue Year
2006
Authors
Treetasanatavorn, Siripong
Editor
Abstract

Today's video applications which are driven by asynchronous communications such as video messaging have become commonplace in a variety of mobile handsets. However, the increasing number of features and classes of such devices, related usage contexts, and underlying networking technologies is seen as an obstacle to service providers. To address this situation, video adaptation was developed to enable seamless communications between devices with incompatible properties and is therefore, deployed to bridge different device functions. If the video contents are not taken into account, the adaptation mechanism is limited to the generic variation of video compression parameters only. On the contrary, if the semantic contents being communicated in the videos are available, potential transmoding of the videos to semantically-oriented key-frames or iconic summaries may be realized with a limited loss of significant information. In this thesis, a set of video analysis methods are proposed and respectively evaluated in order to assist the previously mentioned adaptation, which is driven by content analysis. The technique presented focuses on the structuring of spatiotemporal contents from motion information in the block-based compressed videos. In the first part, a stochastic motion coherency model is proposed as an analytical tool for spatial structuring in terms of motion-coherent partitions. This model is based on two-dimensional Gibbs-Markov random fields and affine parametric motion. It evaluates the probability of the motion field partition that, in particular, is calculated using statistical dependency in the random-field neighborhood to analyze the confidence level of each pre-encoded motion vector. In the second part, the motion coherency model and the spatial structuring method are extended to the analysis of spatiotemporal motion semantics that require both the spatial analysis of motion-coherent objects in each frame, and tracking of these objects between frames. Sequences of the spatiotemporal motion partitions are initially formed by using the partition projection and relaxation method. It works in two steps. First, the current partition is predicted based on the results of the preceding frames. Then, the predictor is refined to fit the corresponding motion field statistics. If the motion field differs significantly from its predecessors, another analysis model based on the Bayesian estimation theory is applied to improve the initial result of the spatiotemporal analysis. This technique analyzes the tracking partition by statistically consolidating two potentially complementary hypotheses. In the last part, video sequences are temporally structured into camera sub-shot segments, key-frames, and related annotations. This approach allows a wide range of video adaptation applications with a limited loss in the key information necessary to understand the contents of the original videos. It also enables fast and simple editing of related annotations to these semantic entities. Two alternative temporal structuring methods for camera shot segmentation are proposed and evaluated. The first method, a local analysis approach, is suitable for analyzing high-quality professional videos in a real-time manner. On the contrary, the other method, based on global analysis, is better suited for amateur-quality videos, commonly found in the target scenario. This is due to the unique characteristic of the global optimization approach capable of removing undesired noise and jittering motion. These two methods are complemented by motion-based segment annotation and key-frame selection methods. All of the video structuring methods were integrated into a video messaging implementation that demonstrates the applicability of the algorithms, and thus serves as a proof of concept.

Abstract

Videoanwendungen, die auf Basis asynchroner Kommunikation laufen, wie das Video-Messaging, befinden sich heutzutage üblicherweise in einer Vielfalt von mobilen End- geräten. Als Hindernis wird jedoch die wachsende Anzahl von Leistungsmerkmalen und Gerätetypen, mit den dazugehörigen Gebrauchskontexten sowie den zu Grunde liegenden Netzwerktechnologien von Anbietern dieser Dienste wahrgenommen. Als Antwort auf diese Situation wurde die Videoadaptation entwickelt, um so eine nahtlose Kommunikation zwischen Geräten mit nicht-kompatiblen Eigenschaften zu ermöglichen; sie wird somit eingesetzt, um unterschiedliche Funktionen der Geräte zu überbrücken. Wenn man die Videoinhalte außer Betracht lässt, ist der Mechanismus der Adaptation ausschließlich auf die Variationen der Gattungen der Kompressionsparameter von Videos beschränkt. Stehen hingegen die in den Videos kommunizierten semantischen Inhalte zur Verfügung, so kann das mögliche Transmoding von Videos in semantisch orientierte Key-Frames oder in ikonische Zusammenfassungen verwirklicht werden. In dieser Dissertation werden Methoden der Videoanalyse zur Unterstützung der oben genannten Adaptation, die auf der Inhaltsanalyse beruht, vorgeschlagen und entsprechend bewertet. Das vorgestellte Verfahren ist auf die Strukturierung raumzeitlicher Inhalte aus der Bewegungsinformation von blockkomprimierten Videos fokussiert. Im ersten Teil wird ein stochastisches Bewegungskohärenzmodell als Instrument zur Analyse für die räumliche Strukturierung bezüglich bewegungskohärenter Partitionen vorgeschlagen. Dieses Modell basiert auf zweidimensionalen Gibbs-Markov-Zufallsfeldern sowie auf der affinen parametrischen Bewegung. Es evaluiert die Wahrscheinlichkeit der Bewegungsfeldpartition, die von der statistischen Abhängigkeit von der näheren Zufallsfeldumgebung kalkuliert wurde, um den Grad der Verlässlichkeit eines jeden vorcodierten Bewegungsvektors zu analysieren. Im zweiten Teil werden das Modell der Bewegungskohärenz sowie die räumliche Strukturierungsmethode auf die Analyse von raumzeitlichen Bewegungssemantiken erweitert; diese erfordern sowohl die räumliche Analyse von bewegungskohärenten Objekten im jeweiligen Frame, als auch deren Verfolgung über Frames hinweg. Sequenzen raumzeitlicher Bewegungspartitionen werden anfänglich unter Anwendung der Partitionsprojektions- und Relaxationsmethode erzielt. Dies geschieht in zwei Schritten. Zunächst wird, basierend auf den Resultaten der vorhergehenden Frames, die aktuelle Partition vorausberechnet; dann wird der Prädiktor an die korrespondierenden Bewegungsfeldstatistiken fein angepasst. Wenn das Bewegungsfeld sich erheblich von seinen Vorgängern unterscheidet, wird ein weiteres, auf der Bayes-Schätzungstheorie basierendes Analysemodell angewandt, um das ursprüngliche Resultat der raumzeitlichen Analyse zu verbessern. Dieses Verfahren analysiert die verfolgte Partition durch statistische Konsolidierung zweier potenziell komplementärer Hypothesen. Anschließend werden Videosequenzen temporal auf Kamera-Subshot-Segmente, Key-Frames und deren jeweiligen Annotationen strukturiert. Dieser Ansatz ermöglicht die Anwendung eines breiten Spektrums von Videoadaptationen, mit einer Verlustbegrenzung von jener Schlüsselinformation, die zum Verständnis der ursprünglichen Videoinhalte erforderlich ist. Zusätzlich ermöglicht dies schnelles und einfaches Editieren von Annotationen, die den semantischen Entitäten zugeordnet sind. Zwei alternative temporale Strukturierungsmethoden der Videobildsegmentierung werden vorgeschlagen und evaluiert. Die erste Methode, ein lokaler Analyseansatz, ist für die Analyse von qualitativ hochwertigen professionellen Videos in Echtzeit geeignet. Die andere Methode hingegen basiert auf der globalen Analyse und ist für Videos in jener Amateurqualität, die üblicherweise im Zielgruppenszenario vorgefunden wird, besser geeignet. Dies liegt an der einzigartigen Charakteristik des globalen Optimierungsansatzes, der dazu fähig ist, ungewollte Bildstörungen und -sprünge zu entfernen. Diese beiden Vorgehensweisen werden durch die Methoden der bewegungsbasierten Segmentannotation und der Key-Frameauswahl komplementiert. Sämtliche Methoden zur Videostrukturierung wurden in eine Anwendung für das Messaging integriert, welche die Anwendbarkeit des Algorithmus demonstriert, und so als Konzeptbeweis dient.

DOI
Document's Licence
Faculties & Collections
Zugehörige ORCIDs