Einführende Kenntnisse in Audio und Video --- verwandte Begriffe, Begriffe, Konzepte

Audio- und videobezogene Substantive, Begriffe und Konzepte

1. Bildrate

Zeigt die Anzahl der Bilder pro Sekunde an und gibt an, wie oft das GPU-Verarbeitungsfeld pro Sekunde aktualisiert werden kann. Eine hohe Bildrate ist flüssiger und realistischer. Im Allgemeinen sind 30 fps akzeptabel. Hinweis: Wenn die Bildrate die Bildwiederholfrequenz des Bildschirms überschreitet, wird nur die Leistung des Grafikprozessors verschwendet, denn wenn der Bildschirm nicht so schnell aktualisiert werden kann, wird die Bildrate, die die Bildwiederholfrequenz des Bildschirms übersteigt, verschwendet.

2. Bildwiederholfrequenz

Bezieht sich auf die Häufigkeit, mit der der Bildschirm pro Sekunde aktualisiert wird. Die Bildwiederholfrequenz wird in vertikale Bildwiederholfrequenz und horizontale Bildwiederholfrequenz unterteilt und bezieht sich im Allgemeinen auf die vertikale Bildwiederholfrequenz. Die vertikale Bildwiederholfrequenz gibt an, wie oft das Bild auf dem Bildschirm pro Sekunde neu gezeichnet wird, also wie oft der Bildschirm pro Sekunde aktualisiert wird. Je höher die Bildwiederholfrequenz, desto stabiler das Bild, desto natürlicher und klarer die Bilddarstellung und desto geringer die Belastung für die Augen. Im Gegenteil, wenn die Bildwiederholfrequenz niedrig ist, ist das Flackern und Zittern des Bildes stärker und die Augen werden anfälliger für Ermüdungserscheinungen. Im Allgemeinen kann eine Bildwiederholfrequenz über 80 Hz Bildflimmern und Jitter vollständig beseitigen.

3. Auflösung

Die Videoauflösung bezieht sich auf die Größe oder Abmessungen des Bildes, das von einem Videobildprodukt wie einem Monitor erzeugt wird.

4. Kodierungsformat

Der Zweck der Kodierung besteht darin, redundante Daten zu komprimieren.

Methode zur Videokodierung

Bild

Die Funktion der Videokodierung besteht darin, Videopixeldaten (RGB, YUV usw.) in einen Videocode-Stream zu komprimieren und so die Menge der Videodaten zu reduzieren.

Name Startagentur Startzeit aktuelles Einsatzgebiet
H.264 MPEG/ITU-T 2003 jedes Feld
MPEG4 MPEG 2001 weder warm noch heiß
MPEG2 MPEG 1994 Digitales Fernsehen
VP9 Google 2013 in Entwicklung
VP8 Google 2008 Nicht populär
VC-1 Microsoft Inc. 2006 Microsoft-Plattform
HEVC (H.265) MPEG/ITU-T 2013

Audiokodierungsmethode

Die am häufigsten verwendete Art der Übertragung von Audiodaten ist die Pulscodemodulation, also PCM; die Erfassungsschritte von PCM sind analoges Signal -> Abtastung -> Quantisierung -> Kodierung -> digitales Signal;

Fügen Sie hier eine Bildbeschreibung ein

Die Funktion der Audiocodierung besteht darin, die Audio-Sample-Daten (PCM usw.) in einen Audio-Code-Stream zu komprimieren und so die Menge der Audiodaten zu reduzieren;

Name Startagentur Startzeit aktuelles Einsatzgebiet
AAC MPEG 1997 Verschiedene Bereiche (neu)
MP3 MPEG 1993 Verschiedene Bereiche (alt)
WMV Microsoft Inc. 1999 Microsoft-Plattform
AC-3 Dolby Inc. 1992 Film

Harte Dekodierung und weiche Dekodierung
Unter weicher Dekodierung versteht man die Nutzung der Rechenleistung der CPU zum Dekodieren. Wenn die CPU nicht sehr leistungsstark ist, ist die Dekodierungsgeschwindigkeit normalerweise relativ langsam und das Mobiltelefon kann sich erwärmen. Aufgrund der Durch die Verwendung eines einheitlichen Algorithmus ist die Kompatibilität sehr gut. Bei der
harten Dekodierung handelt es sich um die Verwendung spezieller Dekodierungschips zur Beschleunigung der Dekodierung. Normalerweise ist die Dekodierungsgeschwindigkeit bei der harten Dekodierung viel schneller, aber da die harte Dekodierung von verschiedenen Herstellern implementiert wird, ist die Qualität schlechter ist ungleichmäßig und kann sehr leicht auftreten. Kompatibilitätsprobleme;

5. Paketformat

Das Verpackungsformat (Container) dient zum Speichern der codierten und komprimierten Videospur und Audiospur in einer Datei gemäß einem bestimmten Format, das heißt, es handelt sich nur um eine Shell, oder es kann als Ordner zum Speichern von Videospuren und Audio verstanden werden Spuren;

Videodateiformat Videokapselungsformat
.avi AVI (Audio Video Interleaved)
.wmv、 .asf WMV (Windows Media Video)
.mpg, .mpeg, .vob, .dat, .3gp, .mp4 MPEG (Bewegtbild-Expertengruppe)
.mkv Matroska
.rm、.rmvb Echtes Video
.mov QuickTime-Dateiformat
.flv Flash-Video

Videokapselungsformat

Bild

6. Bitrate

Die Bitrate ist die Bitrate und die Bitrate ist die Anzahl der Bits, die zum Abspielen kontinuierlicher Medien (z. B. komprimiertes Audio und Video) pro Zeiteinheit verwendet werden. Die Einheit ist bps (Bit pro Sekunde). Je höher die Bitrate, desto mehr Bandbreite wird verbraucht und die Bits sind entweder 0 oder 1. Bitrate = Abtastrate * Anzahl der Abtastbits * Anzahl der Kanäle;

7. Bildqualität und Bitrate

Die Bildqualität hängt von der Bitrate (Bitrate) und dem Kodierungsalgorithmus ab.

8. Videorahmen

Zu den Videobildern gehören I-, P- und B-Bilder:
I-Bild: Stellt ein Schlüsselbild dar, das ein vollständiges Bild enthält.
P-Frame: Zeigt den Differenzrahmen an, d. h. den Unterschied zwischen dem aktuellen Frame und dem vorherigen Keyframe (oder P-Frame). Beim Dekodieren ist es notwendig, das zuvor zwischengespeicherte Bild mit der in diesem Rahmen definierten Differenz zu überlagern, um das endgültige Bild zu erzeugen. Der P-Rahmen enthält keine vollständigen Bilddaten, sondern nur die Daten, die sich vom Bild des vorherigen Rahmens unterscheiden.
B-Frame: Zeigt einen Zwei-Wege-Differenzrahmen an, der die Differenz zwischen diesem Rahmen und den vorhergehenden und folgenden Rahmen aufzeichnet. Um ein B-Bild zu dekodieren, ist es nicht nur notwendig, das zuvor zwischengespeicherte Bild zu erhalten, sondern auch das dekodierte Bild zu erhalten und schließlich das endgültige Bild zu erhalten, indem die Daten des vorderen und hinteren Bildes mit den Daten dieses Bildes überlagert werden.

9. Zeitstempel

[9.1] Zeitstempeleinheit

Der Zeitstempel ist nicht die Echtzeit, sondern die Anzahl der Abtastwerte. Wenn der Zeitstempel beispielsweise 160 beträgt, kann er nicht als 160 Sekunden oder 160 Millisekunden betrachtet werden, es sollten 160 Abtastwerte sein. Um die Echtzeit umzurechnen, müssen Sie es wissen B. 8000, bedeutet dies, dass 1 Sekunde benötigt wird. Teilen Sie es in einen Teil von 8000. Wenn Sie wissen möchten, wie viel Zeit 160 Samples benötigen, reicht 160 * (1/8000) aus, also 20 Millisekunden;

[9.2] Zeitstempelinkrement

Das heißt, der Zeitstempelunterschied zwischen einem Bildrahmen und einem anderen Bildrahmen oder der Zeitstempelunterschied zwischen einem Audiorahmen und einem Audiorahmen; das Zeitstempelinkrement ist die Differenz der Anzahl der Samples, nicht die tatsächliche Zeitunterschied, auf dem die Abtastrate basieren muss, kann in Echtzeit umgewandelt werden;
für Video beträgt die Bildrate 25, und bei einer Abtastrate von 90000 beträgt die Anzahl der von einem Bild belegten Abtastwerte 90000/25 oder 3600 , was darauf hinweist, dass das Zeitstempelinkrement jedes Frame-Bildes 3600 beträgt, was in die tatsächliche Zeit umgewandelt wird. Die Zeit beträgt 3600 * (1/90000) = 0,04 Sekunden = 40 Millisekunden; für AAC-Audio gibt es 1024 Samples in einem Frame und das
Sampling Wenn die Frequenz 44 kHz beträgt, sollte die Wiedergabezeit eines Frames 1024 * (1/44100) = 0,0232 Sekunden = 23,22 Millisekunden betragen;

[9.3] Synchronisationsmethode

Der Player muss lokal eine Systemuhr einrichten, die im Allgemeinen auf der Grundlage der CPU-Zeit berechnet wird. Wenn die Wiedergabe beginnt, ist die Uhrzeit 0 und der Zeitstempel bestimmt den Zeitpunkt, an dem ein Frame dekodiert und gerendert wird; wenn die Wiedergabe beginnt, Die Uhrzeit wird erhöht
. Der Player verwendet die Systemuhr, um den Zeitstempel des aktuellen Videos und Audios zu vergleichen. Wenn der Zeitstempel von Audio und Video kleiner als der aktuelle Systemtakt ist, muss er dekodiert und abgespielt werden; ob Damit die Wiedergabe genau durchgeführt werden kann, muss der Encoder einen genauen Zeitstempel liefern
. Gleichzeitig verfügt der Player über eine genaue Systemuhr, da der Datenfluss während der Wiedergabe nur auf der Grundlage des Zeitstempels und der Systemuhr gesteuert werden kann, d. h. Je nach Zeitstempel müssen für die Datenblöcke unterschiedliche Verarbeitungsmethoden angewendet werden. Unabhängig davon, ob der Encoder oder die lokale Wiedergabe erfolgt, kann das Gerät nicht sehr genau sein. Um das Problem des kumulativen Fehlers zu lösen, ist dies im Allgemeinen erforderlich ein Feedback-Mechanismus am Wiedergabeende, um diesen Fehler zu beseitigen; Synchronisation ist ein dynamischer Prozess, ein Prozess des Wartens und Aufholens;

【9.4】PTS und DTS

DTS, Decoding Time Stamp ist der Dekodierungszeitstempel, der die Dekodierungszeit des komprimierten Frames angibt. Die Bedeutung des Zeitstempels besteht darin, dem Player mitzuteilen, wann die Daten dieses Frames dekodiert werden sollen; PTS, Presentation Time Stamp ist der Anzeigezeitstempel , Gibt den komprimierten
Frame an. Die Anzeigezeit des ursprünglichen Frames, die nach der Dekodierung erhalten wurde. Dieser Zeitstempel wird verwendet, um dem Player mitzuteilen, wann die Daten dieses Frames angezeigt werden sollen.

Bei Audio sind DTS und PTS gleich; bei Video unterscheidet sich die Dekodierungsreihenfolge von Videos, die B-Bilder enthalten, von der Anzeigereihenfolge, da B-Bilder eine bidirektionale Vorhersage erfordern und B-Bilder von den Bildern davor und danach abhängen. DTS unterscheidet sich von PTS. Bei Videos mit B-Frames sind DTS und PTS identisch.

Wenn kein B-Frame vorhanden ist und davon ausgegangen wird, dass der übertragene Videoframe IPPP ist, kann er entsprechend dem Zeitstempel jedes Frames dekodiert und angezeigt werden, da der Zeitstempel des nachfolgenden Frames immer größer als der vorherige Zeitstempel ist und nur ein Zeitstempel dies kann verwendet werden;

B-Frame vorhanden

  1. Die Reihenfolge, in der Frames tatsächlich angezeigt werden sollten, ist: die Reihenfolge, in der IBBP-Frames dekodiert werden;

  2. Tatsächlich lautet die tatsächliche Reihenfolge im Cache nach dem Eintreffen dieser Frames gemäß den Eigenschaften von I-Frames und B-Frames: IPBB;

  3. Tatsächliche Dekodierungsreihenfolge: 1 4 2 3;

  4. Die Reihenfolge der Abschlusspräsentation ist: 1 2 3 4;

  5. Das heißt, der I-Frame wird zuerst abgespielt, dann der erste B-Frame, der zweite B-Frame und schließlich der P-Frame;
    für den I-Frame gilt PTS = DTS, der PTS des P-Frames > DTS und der B-Frame PTS < DTS;

Bild

Erfassungsreihenfolge: bezieht sich auf die Reihenfolge, in der der Bildsensor das Originalsignal erfasst, um die Bildframes zu erhalten. Kodierungsreihenfolge
: bezieht sich auf die Reihenfolge der vom Encoder codierten Bildframes; die Reihenfolge der Bildframes in der lokalen Videodatei, die auf gespeichert ist Die Festplatte ist mit der Kodierungsreihenfolge identisch; Übertragungsreihenfolge: bezieht sich auf die Reihenfolge nach der
Kodierung. Die Reihenfolge der Bildrahmen während der Netzwerkübertragung des Streams.
Dekodierungsreihenfolge: bezieht sich auf die Reihenfolge, in der der Decoder die Bildrahmen dekodiert.
Anzeigereihenfolge: bezieht sich in der Reihenfolge, in der die Bilder auf dem Display angezeigt werden. Die
Erfassungsreihenfolge ist dieselbe wie die Anzeigereihenfolge, und die Kodierungsreihenfolge, Übertragungsreihenfolge und Dekodierungsreihenfolge sind dieselben.

10. Audiorahmen

Audioframes sind weniger spezifisch als Videoframes.
Für PCM (uncodierte Audiodaten) ist das Konzept von Frames nicht erforderlich und kann entsprechend der Abtastrate und Abtastgenauigkeit abgespielt werden.
Für den AMR-Frame ist festgelegt, dass alle 20 ms ein Frame vorhanden ist und jeder Frame unabhängig ist.
Die Anzahl der Audiodatenrahmen von MP3 wird durch die Dateigröße und die Rahmenlänge bestimmt, und die Länge jedes Rahmens kann variabel oder fest sein. Abhängig von der Bitrate ist jeder Frame in zwei Teile unterteilt: Frame-Header und Dateneinheit. Der Frame-Header zeichnet die Bitrate, Abtastrate, Version usw. der MP3 auf.

11. Abtastrate und Abtastbits

Die Abtastrate ist die Abtastfrequenz und die Anzahl der Audio-Abtastpunkte pro Sekunde. Die Abtastrate ist größer als das Doppelte der Frequenz der ursprünglichen Schallwelle und die höchste Frequenz, die das menschliche Ohr hören kann, beträgt 20 kHz Um den Höranforderungen des menschlichen Ohrs gerecht zu werden, sollte die Abtastrate mindestens 40 kHz betragen, normalerweise 44,1 kHz, und die höhere Rate beträgt normalerweise 48 kHz. Hinweis:
Der menschliche Hörfrequenzbereich [20 Hz, 20 kHz] und die
Anzahl der Abtastungen Bits, das heißt, die Amplitudenquantisierung, die Wellenformamplitude ist auch ein kontinuierlicher Abtastwert für das analoge Signal, während in digitalen Signalen das Signal im Allgemeinen diskontinuierlich ist, sodass das analoge Signal nach der Quantisierung nur eine ungefähre ganze Zahl annehmen kann Wert. Um diese Amplitudenwerte aufzuzeichnen, verwendet der Sampler eine feste Anzahl von Bits, normalerweise 8 Bits, 16 Bits, 32 Bits. Hinweis: Je höher
die Anzahl der Ziffern, desto genauer Je höher der aufgezeichnete Wert und desto höher der Grad der Wiederherstellung, es nimmt jedoch mehr Platz auf der Festplatte ein.

12. Quantisierungsgenauigkeit

Gibt an, in wie viele Stufen das analoge Signal unterteilt werden kann. Je höher die Quantisierungsgenauigkeit, desto näher kommt die Schalldruckamplitude der Musik der Originalmusik. Die Einheit der Quantisierungsgenauigkeit ist Bit, die Quantisierungsgenauigkeit des CD-Standards beträgt 16 Bit und die Quantisierungsgenauigkeit der DVD beträgt 24 Bit.

13. Kanal

Die Anzahl der Kanäle bezieht sich auf die Anzahl der Lautsprecher, die unterschiedliche Klänge unterstützen (beachten Sie, dass es sich um unterschiedliche Klänge handelt); Mono (1 Kanal), Binaural (2 Kanäle), Stereo (Standard 2 Kanäle; 4 Kanäle);

Damit sind voneinander unabhängige Audiosignale gemeint, die bei der Tonaufnahme bzw. -wiedergabe an unterschiedlichen räumlichen Positionen gesammelt bzw. wiedergegeben werden, die Anzahl der Kanäle ist also auch die Anzahl der Tonquellen bei der Tonaufnahme bzw. die entsprechende Anzahl der Lautsprecher bei der Wiedergabe.
Mono: Stellen Sie einen Lautsprecher ein.
Stereo: Zwei symmetrische Lautsprecher.
4-Kanal: Platzieren Sie die Lautsprecher jeweils vorne links, vorne rechts, hinten links und hinten rechts, und das Publikum ist in der Mitte umgeben. Fügen Sie einen weiteren Subwoofer hinzu, um die Wiedergabeverarbeitung von Niederfrequenzsignalen, dem sogenannten 4.1-Kanal, zu verstärken.
5.1-Kanal: Abgeleitet vom 4.1-Kanal ist der Surround-Kanal zweigeteilt, unterteilt in linken Surround und rechten Surround, und die zentrale Position erhöht den Subwoofer-Effekt.
7.1-Kanal: Auf Basis des 5.1-Kanals werden zwei Lautsprecher hinzugefügt, der mittlere linke und der mittlere rechte.

14. Farbraum

RGB: Durch die drei Grundfarben von RGB können alle Farben gemischt werden;
YUV (auch bekannt als YCbCr), ein Farbformat, das Helligkeit und Chroma trennt;

Y: Helligkeit, also der Grauwert, der nicht nur das Helligkeitssignal darstellt, sondern auch mehr Grünkanäle enthält; U: Der
Unterschied zwischen dem Blaukanal und der Helligkeit;
V: Der Unterschied zwischen dem Rotkanal und der Helligkeit;
Der Vorteil von YUV: Das menschliche Auge ist empfindlich gegenüber Helligkeit und unempfindlich gegenüber Chromatizität, sodass die Menge der UV-Daten reduziert werden kann, die vom menschlichen Auge nicht wahrgenommen werden können, sodass die Lautstärke des Videos reduziert werden kann, ohne das Erscheinungsbild zu beeinträchtigen und Gefühl durch Komprimieren der Auflösung von UV; RGB- und
YUV-Konvertierungsformel
Y = 0.299R + 0.587G + 0.114B
U = -0.147R - 0.289G + 0.436B
V = 0.615R - 0.515G - 0.100B
R = Y + 1.14V
G = Y - 0.39U - 0.58V
B = Y + 2.03U

Schematische Darstellung des Wiedergabevorgangs einer Videodatei

Bild

Ich denke du magst

Origin blog.csdn.net/qq_41290252/article/details/124706089
Empfohlen
Rangfolge