Subjektive Videoqualität - Subjective video quality

Die subjektive Videoqualität ist die von Menschen erlebte Videoqualität . Es geht darum , wie man Video von einem Betrachter wahrgenommen wird (auch als „Beobachter“ oder „Subjekt“ genannt) und bezeichnet ihre Meinung zu einer bestimmten Videosequenz. Es bezieht sich auf das Feld der Erfahrungsqualität . Die Messung der subjektiven Videoqualität ist notwendig, da objektive Qualitätsbewertungsalgorithmen wie PSNR nachweislich schlecht mit subjektiven Bewertungen korrelieren. Subjektive Bewertungen können auch als Ground Truth verwendet werden, um neue Algorithmen zu entwickeln.

Subjektive Videoqualitätstests sind psychophysische Experimente, bei denen eine Reihe von Zuschauern eine bestimmte Menge von Reizen bewerten. Diese Tests sind in Bezug auf Zeit (Vorbereitung und Durchführung) und personelle Ressourcen recht teuer und müssen daher sorgfältig konzipiert werden.

Bei subjektiven Videoqualitätstests werden typischerweise SRCs ("Sources", dh Originalvideosequenzen) mit verschiedenen Bedingungen ( HRCs für "Hypothetical Reference Circuits") behandelt, um PVSs ("Processed Video Sequences") zu erzeugen .

Messung

Die Grundidee der Messung der subjektiven Videoqualität ähnelt der Bewertung des Mean Opinion Score (MOS) für Audio . Um die subjektive Videoqualität eines Videoverarbeitungssystems zu bewerten, werden typischerweise die folgenden Schritte durchgeführt:

  • Wählen Sie originale, unbeeinträchtigte Videosequenzen zum Testen
  • Wählen Sie die Einstellungen des zu bewertenden Systems
  • Wenden Sie Einstellungen auf den SRC an, was zu den Testsequenzen führt
  • Wählen Sie eine Testmethode, die beschreibt, wie Sequenzen den Zuschauern präsentiert werden und wie ihre Meinung eingeholt wird
  • Laden Sie eine Gruppe von Zuschauern ein
  • Führen Sie Tests in einer bestimmten Umgebung durch (z. B. im Laborkontext) und präsentieren Sie jedes PVS in einer bestimmten Reihenfolge jedem Betrachter
  • Berechnen Sie die Bewertungsergebnisse für einzelne PVSs, SRCs und HRCs, z. B. die MOS

Viele Parameter der Betrachtungsbedingungen können die Ergebnisse beeinflussen, wie z. B. Raumbeleuchtung, Displaytyp, Helligkeit, Kontrast, Auflösung, Betrachtungsabstand sowie Alter und Bildungsstand der Betrachter. Es wird daher empfohlen, diese Informationen zusammen mit den erhaltenen Bewertungen zu melden.

Quellenauswahl

Typischerweise sollte ein System mit einer repräsentativen Anzahl unterschiedlicher Inhalte und Inhaltsmerkmale getestet werden. Beispielsweise kann man Auszüge aus Inhalten verschiedener Genres auswählen, wie etwa Actionfilme, Nachrichtensendungen und Cartoons. Die Länge des Quellvideos hängt vom Zweck des Tests ab, aber typischerweise werden Sequenzen von nicht weniger als 10 Sekunden verwendet.

Auch der Bewegungsumfang und die räumlichen Details sollen einen weiten Bereich abdecken. Dadurch wird sichergestellt, dass der Test Sequenzen unterschiedlicher Komplexität enthält.

Quellen sollten von einwandfreier Qualität sein. Es sollten keine sichtbaren Codierungsartefakte oder andere Eigenschaften vorhanden sein, die die Qualität der Originalsequenz beeinträchtigen würden.

Einstellungen

Das Design der HRCs hängt vom untersuchten System ab. Typischerweise werden in dieser Phase mehrere unabhängige Variablen eingeführt, die auf mehreren Ebenen variiert werden. Um beispielsweise die Qualität eines Videocodecs zu testen , können unabhängige Variablen die Videocodierungssoftware, eine Zielbitrate und die Zielauflösung der verarbeiteten Sequenz sein.

Es wird empfohlen, Einstellungen zu wählen, die zu Bewertungen führen, die den gesamten Qualitätsbereich abdecken. Mit anderen Worten, unter der Annahme einer absoluten Kategoriebewertungsskala sollte der Test Sequenzen zeigen, die die Zuschauer von schlecht bis ausgezeichnet bewerten würden.

Zuschauer

Anzahl der Zuschauer

Betrachter werden auch „Beobachter“ oder „Subjekte“ genannt. Eine gewisse Mindestanzahl von Zuschauern sollte zu einer Studie eingeladen werden, da eine größere Anzahl von Probanden die Verlässlichkeit des Versuchsergebnisses erhöht, beispielsweise indem die Standardabweichung gemittelter Bewertungen reduziert wird. Darüber hinaus besteht die Gefahr, dass Probanden für unzuverlässiges Verhalten bei der Bewertung ausgeschlossen werden müssen.

Die Mindestanzahl an Probanden, die für eine subjektive Videoqualitätsstudie erforderlich ist, ist nicht genau definiert. Laut ITU-T ist jede Zahl zwischen 4 und 40 möglich, wobei 4 aus statistischen Gründen das absolute Minimum ist und eine Einladung von mehr als 40 Probanden keinen Mehrwert bringt. Im Allgemeinen sollten mindestens 15 Beobachter an dem Experiment teilnehmen. Sie sollten im Rahmen ihrer Arbeit nicht direkt an der Beurteilung der Bildqualität beteiligt sein und keine erfahrenen Assessoren sein. In anderen Dokumenten wird auch behauptet, dass mindestens 10 Probanden erforderlich sind, um aussagekräftige Durchschnittsbewertungen zu erhalten.

Die meisten Empfehlungen für die Anzahl der Probanden wurden jedoch für die Messung der Videoqualität entwickelt, die von einem Heimfernseher oder PC-Benutzer angetroffen wird, wo der Bereich und die Vielfalt der Verzerrungen tendenziell begrenzt sind (z. B. nur auf Codierungsartefakte). Angesichts der großen Reichweite und Vielfalt von Beeinträchtigungen, die bei Videos auftreten können, die mit mobilen Geräten aufgenommen und/oder über drahtlose Netzwerke übertragen werden, kann im Allgemeinen eine größere Anzahl von Personen erforderlich sein.

Brunnström und Barkowsky haben Berechnungen zur Abschätzung der erforderlichen Mindestanzahl von Probanden basierend auf bestehenden subjektiven Tests vorgelegt. Sie behaupten, dass, um statistisch signifikante Unterschiede beim Vergleich von Bewertungen sicherzustellen, eine größere Anzahl von Probanden als normalerweise empfohlen erforderlich sein könnte.

Viewer-Auswahl

Zuschauer sollten Nicht-Experten im Sinne von Nicht-Profis auf dem Gebiet der Videocodierung oder verwandter Bereiche sein. Diese Anforderung wird eingeführt, um eine potenzielle Subjektverzerrung zu vermeiden.

In der Regel werden die Betrachter anhand von Snellen-Diagrammen auf normales Sehvermögen oder auf normales Sehvermögen korrigiert . Farbenblindheit wird oft mit Ishihara-Platten getestet .

In der QoE- Gemeinschaft wird ständig darüber diskutiert , ob der kulturelle, soziale oder wirtschaftliche Hintergrund eines Zuschauers einen signifikanten Einfluss auf die erhaltenen subjektiven Videoqualitätsergebnisse hat. Eine systematische Studie, an der sechs Labors in vier Ländern teilnahmen, ergab keinen statistisch signifikanten Einfluss der Sprache und Kultur/des Herkunftslandes des Probanden auf die Videoqualitätsbewertungen.

Test Umgebung

Subjektive Qualitätstests können in jeder Umgebung durchgeführt werden. Aufgrund möglicher Einflussfaktoren aus heterogenen Kontexten wird jedoch in der Regel empfohlen, Tests in einer neutralen Umgebung durchzuführen, beispielsweise in einem eigenen Laborraum. Ein solcher Raum kann schallisoliert sein, mit neutralgrau gestrichenen Wänden und mit richtig kalibrierten Lichtquellen. Mehrere Empfehlungen spezifizieren diese Bedingungen. Es hat sich gezeigt, dass kontrollierte Umgebungen zu einer geringeren Variabilität der erhaltenen Bewertungen führen.

Crowdsourcing

Crowdsourcing wurde in letzter Zeit zur subjektiven Bewertung der Videoqualität und allgemeiner im Zusammenhang mit der Qualität der Erfahrung verwendet . Hier geben die Zuschauer ihre Bewertungen am eigenen Computer zu Hause ab und nehmen nicht an einem subjektiven Qualitätstest in Laborräumen teil. Während mit dieser Methode zu geringeren Kosten mehr Ergebnisse als bei herkömmlichen subjektiven Tests erzielt werden können, müssen die Validität und Verlässlichkeit der gesammelten Antworten sorgfältig geprüft werden.

Die weltweit größte Crowdsourcing-Datenbank zur Bildqualität wurde als LIVE In the Wild Image Quality Challenge Database öffentlich zugänglich gemacht . Es enthält mehr als 350.000 Beurteilungen der menschlichen Qualität von mehr als 8.000 menschlichen Probanden. Die menschlichen Urteile wurden auf mehr als 1.100 mobilen Kamerafotos getroffen, die von unterschiedlichen Graden authentischer Verzerrungen befallen waren, anstelle von synthetisch eingeführten Verzerrungen, wie es in fast jeder früheren Datenbank der Fall war.

Analyse der Ergebnisse

Die Meinungen der Zuschauer werden in der Regel in den Mean Opinion Score (MOS) gemittelt. Zu diesem Zweck können die Bezeichnungen kategorialer Skalen in Zahlen übersetzt werden. Beispielsweise können die Antworten „schlecht“ bis „sehr gut“ auf die Werte 1 bis 5 abgebildet und dann gemittelt werden. MOS-Werte sollten immer mit ihren statistischen Konfidenzintervallen angegeben werden, damit die allgemeine Übereinstimmung zwischen den Beobachtern bewertet werden kann.

Themenscreening

Oft werden vor der Auswertung der Ergebnisse zusätzliche Maßnahmen ergriffen. Betreff-Screening ist ein Prozess, bei dem Zuschauer, deren Bewertungen als ungültig oder unzuverlässig gelten, von der weiteren Analyse ausgeschlossen werden. Ungültige Bewertungen sind schwer zu erkennen, da Testpersonen eine Bewertung abgegeben haben, ohne sich ein Video anzusehen, oder während des Tests betrügen. Die Gesamtzuverlässigkeit eines Subjekts kann durch verschiedene Verfahren bestimmt werden, von denen einige in den Empfehlungen von ITU-R und ITU-T beschrieben sind. Beispielsweise ist die Korrelation zwischen den individuellen Scores einer Person und dem für alle Sequenzen ausgewerteten Gesamt-MOS ein guter Indikator für deren Reliabilität im Vergleich zu den übrigen Testteilnehmern.

Fortgeschrittene Modelle

Bei der Bewertung von Reizen unterliegt der Mensch Vorurteilen. Diese können zu unterschiedlichem und ungenauem Bewertungsverhalten führen und folglich zu MOS-Werten führen, die nicht repräsentativ für die „wahre Qualität“ eines Stimulus sind. In den letzten Jahren wurden fortschrittliche Modelle vorgeschlagen, die darauf abzielen, den Bewertungsprozess formal zu beschreiben und anschließend das Rauschen in subjektiven Bewertungen wiederherzustellen. Nach Janowski et al. können Probanden eine Meinungsverzerrung aufweisen, die ihre Punktzahlen im Allgemeinen verschiebt, sowie eine Ungenauigkeit der Punktzahl, die von der Person und dem zu bewertenden Stimulus abhängt. Liet al. haben vorgeschlagen , zwischen inhaltlicher Inkonsistenz und inhaltlicher Mehrdeutigkeit zu unterscheiden .

Standardisierte Testmethoden

Es gibt viele Möglichkeiten, die richtigen Sequenzen, Systemeinstellungen und Testmethoden auszuwählen. Einige von ihnen wurden standardisiert. Sie werden in mehreren ITU-R- und ITU-T-Empfehlungen ausführlich beschrieben, darunter ITU-R BT.500 und ITU-T P.910. Während es in einigen Aspekten Überschneidungen gibt, hat die BT.500-Empfehlung ihre Wurzeln im Rundfunk, während sich P.910 auf Multimedia-Inhalte konzentriert.

Ein standardisiertes Prüfverfahren beschreibt in der Regel folgende Aspekte:

  • Wie lange dauert eine Experimentiersitzung
  • wo das Experiment stattfindet
  • wie oft und in welcher Reihenfolge jedes PVS angesehen werden soll
  • ob Bewertungen einmal pro Stimulus (z. B. nach Präsentation) oder kontinuierlich vorgenommen werden
  • ob Bewertungen absolut sind, dh sich nur auf einen Reiz beziehen, oder relativ (Vergleich von zwei oder mehr Reizen)
  • welche Skalenbewertungen übernommen werden

Eine weitere Empfehlung, ITU-T P.913, gibt Forschern mehr Freiheit, subjektive Qualitätstests in Umgebungen durchzuführen, die sich von einem typischen Testlabor unterscheiden, während sie dennoch alle Details angeben müssen, die für die Reproduzierbarkeit solcher Tests erforderlich sind.

Beispiele

Im Folgenden werden einige Beispiele für standardisierte Testverfahren erläutert.

Einzelstimulus

  • ACR (Absolute Category Rating): Jede Sequenz wird einzeln auf der ACR-Skala bewertet . Die Bezeichnungen auf der Skala sind „schlecht“, „schlecht“, „ausreichend“, „gut“ und „ausgezeichnet“ und werden bei der Berechnung des MOS in die Werte 1, 2, 3, 4 und 5 übersetzt.
  • ACR-HR (Absolute Category Rating with Hidden Reference): Eine Variante von ACR, bei der zusätzlich zu den beeinträchtigten Sequenzen eine originale unbeeinträchtigte Quellsequenz gezeigt wird, ohne die Probanden über ihr Vorhandensein zu informieren (daher "versteckt"). Die Bewertungen werden als Differenzwerte zwischen der Referenz- und der beeinträchtigten Version berechnet. Die Differenzpunktzahl ist definiert als die Punktzahl des PVS abzüglich der Punktzahl für die versteckte Referenz plus die Anzahl der Punkte auf der Skala. Wenn ein PVS beispielsweise als „schlecht“ und seine entsprechende versteckte Referenz als „gut“ bewertet wird, lautet die Bewertung . Wenn diese Bewertungen gemittelt werden, ist das Ergebnis kein MOS, sondern ein differentieller MOS ("DMOS").
  • SSCQE (Single Stimulus Continuous Quality Rating): Eine längere Sequenz wird mit Hilfe eines Schiebereglers (eine Variation eines Faders ) kontinuierlich über die Zeit bewertet , auf der die Probanden die aktuelle Qualität bewerten. In regelmäßigen Abständen werden Proben genommen, sodass sich nicht nur eine einzige Qualitätsbewertung, sondern eine Qualitätskurve über die Zeit ergibt.

Doppelreiz oder Mehrfachreiz

  • DSCQS (Double Stimulus Continuous Quality Scale): Der Betrachter sieht eine unbeeinträchtigte Referenz und die beeinträchtigte Sequenz in zufälliger Reihenfolge. Sie dürfen die Sequenzen erneut ansehen und dann die Qualität für beide auf einer kontinuierlichen Skala bewerten, die mit den ACR-Kategorien gekennzeichnet ist.
  • DSIS (Double Stimulus Impairment Scale) und DCR (Degradation Category Rating): beide beziehen sich auf dieselbe Methode. Der Zuschauer sieht ein unbeeinträchtigtes Referenzvideo, dann dasselbe Video beeinträchtigt, und danach wird er gebeten, über das zweite Video anhand einer sogenannten Beeinträchtigungsskala abzustimmen (von „Beeinträchtigungen sind nicht wahrnehmbar“ bis „Beeinträchtigungen sind sehr störend“).
  • PC (Paar-Vergleich): Anstatt eine ungestörte und eine beeinträchtigte Sequenz zu vergleichen, werden verschiedene Impairment-Typen (HRCs) verglichen. Alle möglichen Kombinationen von HRCs sollten bewertet werden.

Wahl der Methodik

Welche Methode zu wählen ist, hängt weitgehend vom Zweck des Tests und möglichen Einschränkungen in Bezug auf Zeit und andere Ressourcen ab. Einige Methoden können weniger Kontexteffekte haben (dh wenn die Reihenfolge der Stimuli die Ergebnisse beeinflusst), die unerwünschte Testverzerrungen sind. In ITU-T P.910 wird darauf hingewiesen, dass Verfahren wie DCR zum Testen der Übertragungstreue verwendet werden sollten, insbesondere in hochwertigen Systemen. ACR und ACR-HR eignen sich besser für Qualifizierungstests und – aufgrund absoluter Ergebnisse – für Systemvergleiche. Die PC-Methode hat eine hohe Unterscheidungskraft, erfordert jedoch längere Testsitzungen.

Datenbanken

Die Ergebnisse subjektiver Qualitätstests einschließlich der verwendeten Reize werden als Datenbanken bezeichnet . Eine Reihe von Datenbanken zur subjektiven Bild- und Videoqualität, die auf solchen Studien basieren, wurden von Forschungsinstituten öffentlich zugänglich gemacht. Diese Datenbanken – von denen einige zu De-facto-Standards geworden sind – werden weltweit von Fernseh-, Film- und Videoingenieuren auf der ganzen Welt verwendet, um objektive Qualitätsmodelle zu entwerfen und zu testen, da die entwickelten Modelle anhand der erhaltenen subjektiven Daten trainiert werden können.

Beispiele für diese Datenbanken umfassen die beliebte Sammlung öffentlich zugänglicher Datenbanken zur subjektiven Bildqualität, die auf der Website des Laboratory for Image & Video Engineering (LIVE) verfügbar sind. Die LIVE-Datenbanken waren die ersten hochwertigen, großen subjektiven Bildqualitätsdatenbanken, die der Öffentlichkeit kostenlos und ohne Zurückhaltung von Datenteilen zur Verfügung gestellt wurden. Zu den jüngsten Arbeiten zählen die Datenbanken des Institut de Recherche en Communications et Cybernétique de Nantes (IRCCyN) . Eine Liste europäischer Datenbanken zum Bereich Quality of Experience finden Sie in den QUALINET-Datenbanken .

Verweise

  1. ^ ITU-T-Tutorial: Objektive Wahrnehmungsbewertung der Videoqualität: Vollständiges Referenzfernsehen , 2004.
  2. ^ a b c d e f g h ITU-T Rec. S.910: Subjektive Videoqualitätsbewertungsmethoden für Multimediaanwendungen , 2008.
  3. ^ Winkler, Stefan. "Über die Eigenschaften subjektiver Bewertungen in Videoqualitätsexperimenten" . Proz. Qualität der Multimedia-Erfahrung , 2009.
  4. ^ Brunnström, Kjell; Barkowsky, Marcus (2018-09-25). "Statistische Qualität der Erfahrungsanalyse: zur Planung der Stichprobengröße und statistischer Signifikanzprüfung" . Zeitschrift für elektronische Bildgebung . 27 (5): 053013. Bibcode : 2018JEI....27e3013B . doi : 10.1117/1.jei.27.5.053013 . ISSN  1017-9909 . S2CID  53058660 .
  5. ^ a b Pinson, MH; Janowski, L.; Pepion, R.; Huynh-Do, Q.; Schmidmer, C.; Corriveau, P.; Younkin, A.; Callet, P. Le; Barkowsky, M. (Oktober 2012). "Der Einfluss von Subjekten und Umgebung auf audiovisuelle subjektive Tests: Eine internationale Studie" (PDF) . IEEE Journal of Selected Topics in Signal Processing . 6 (6): 640–651. Bibcode : 2012ISTSP...6..640P . doi : 10.1109/jstsp.2012.2215306 . ISSN  1932-4553 . S2CID  10667847 .
  6. ^ a b ITU-T S.913: Methoden zur subjektiven Bewertung der Videoqualität, Audioqualität und audiovisuellen Qualität von Internet-Video und Fernsehübertragungsqualität in jeder Umgebung , 2014.
  7. ^ a b c d e f ITU-R BT.500: Methodik zur subjektiven Beurteilung der Qualität von Fernsehbildern , 2012.
  8. ^ Hossfeld, Tobias (2014-01-15). „Best Practices für QoE-Crowdtesting: QoE-Bewertung mit Crowdsourcing“. IEEE-Transaktionen auf Multimedia . 16 (2): 541–558. doi : 10.1109/TMM.2013.2291663 . S2CID  16862362 .
  9. ^ Hößfeld, Tobias; Hirth, Matthias; Redi, Judith; Mazza, Filippo; Korschunov, Pawel; Naderi, Babak; Seufert, Michael; Gardlo, Bruno; Egger, Sebastian (Oktober 2014). „Best Practices und Empfehlungen für Crowdsourcing QoE – Lehren aus der Qualinet Task Force „Crowdsourcing . hal-01078761. Cite Journal erfordert |journal=( Hilfe )
  10. ^ Janowski, Lucjan; Pinson, Margaret (2015). „Die Genauigkeit der Themen in einem Qualitätsexperiment: Ein Theoretisches Subjektmodell“. IEEE-Transaktionen auf Multimedia . 17 (12): 2210–2224. doi : 10.1109/tmm.2015.2484963 . ISSN  1520-9210 . S2CID  22343847 .
  11. ^ Li, Zhi; Bampis, Christos G. (2017). "Erholen Sie subjektive Qualitätswerte aus verrauschten Messungen". 2017 Datenkomprimierungskonferenz (DCC) . IEEE: 52–61. arXiv : 1611.01715 . doi : 10.1109/dcc.2017.26 . ISBN 9781509067213. S2CID  14251604 .
  12. ^ Pinson, Margaret und Wolf, Stephen. "Vergleich subjektiver Videoqualitätstestmethoden" . SPIE Video Communications and Image Processing Conference , Lugano, Schweiz, Juli 2003.

Externe Links