Martin Jann
Elektronisches Studio der Hochschule für Musik Basel, 1999
Es werden verschiedene DSP-Methoden zur Verbreiterung von Stereosignalen auf einem Surroundsystem verglichen und vorgestellt.
Um Musik oder Kinofilme über ein Surroundsystem hören zu können gibt es bereits viele Geräte, die eine künstliche Abhörumgebung (wie z.B. Kinos, Säle etc.) simulieren. Hierfür werden meistens mittels Hallgeräten künstliche Räume geschaffen, die den Eindruck vermitteln, daß sich der Hörer in einem Raum befindet und dort die Musik etc. wahrnimmt. Nachteil dieser Systeme ist, daß das Signal bereits in einen Raum projiziert wird und dadurch nur noch eingeschränkt für die Weiterverwendung geeignet ist, denn z.B. eine Vogelatmo, die verhallt ist, läßt sich nicht mehr für außen verwenden. Möchte man Stereosignale für die Weiterverwendung in Surroundmischungen aufbereiten, so muß man nach anderen Prinzipien suchen, die einen Surroundeffekt produzieren, ohne dabei Hallgeräte zu benutzen.
Ziel dieser Arbeit war es, geeignete Algorithmen zu finden, mit denen man Stereosignale so bearbeiten kann, daß sie später als Surroundsignale weiterverwendbar sind. Hierfür wurden gängige Pseudostereo-Algorithmen adaptiert, weiterentwickelt und in Form von DSP-Programmen getestet.
In Tonstudios, in denen Surroundmischungen gemacht werden sind häufig sehr einfache Prinzipien zur Verbreiterung eines Stereosignals üblich. Eine davon ist das Hinzumischen der vorderen Kanäle zu den Hinteren. Hierbei haben die beiden linken Lautsprecher vorne und hinten dasselbe kohärente Signal und es entsteht kaum räumliche Breite zwischen vorderen und hinteren Lautsprechern.
Um aus dem Stereosignal ein Surroundsignal mit 4 unkorrelierten Signalen zu machen, kann man das Prinzip der Pseudostereophonie anwenden. Hierbei wird ein Monosignal durch verschiedene Algorithmen so verändert, daß der Eindruck eines Stereosignals entsteht. Überträgt man dieses Verfahren auf das Surroundsystem und erzeugt aus den vorderen Kanälen jeweils 2 Pseudostereokanäle, so erhält man durch die Verteilung
Vorne Links (Mono) wird zu VL (Pseudo) & HL (Pseudo) und
Vorne Rechts (Mono) wird zu VR (Pseudo) & HR (Pseudo),
ein komplexes Surroundsignal mit 4 verschiedenen Signalen.
3.1 Formen der räumlichen Ortung
Der Mensch kann akustische Ereignisse aus verschiedenen Richtungen durch Wahrnehmung der Intensitätsunterschiede und Laufzeitunterschiede zwischen linkem und rechtem Ohr orten. (siehe Blauert [3] + [4] und Meyer [6])
Hierfür gibt es einen Frequenzbereich, bei dem die Ohren zwischen Intensitäts- und Laufzeitwahrnehmung quasi "umschalten".
Geht man davon aus, daß die halbe
Wellenlänge einer Schallwelle mindestens so lang sein muß, wie
der Kopf des Menschen breit ist, bzw. die Ohren voneinander entfernt sind,
damit die Schallwelle um den Kopf herumgebeugt wird, so ergibt sich gemittelt
eine Länge von ca. 16 bis 22 cm. Durch die Formel
läßt sich der Frequenzbereich errechnen, bei dem Schallwellen
um den Kopf herum gebeugt werden. Dieser Frequenzbereich liegt etwa zwischen
700 und 1000 Hz. Befindet sich die Frequenz einer Schallwelle unterhalb
dieser Grenze, so funktioniert die Ortung über die Wahrnehmung der
Laufzeitunterschiede, während Frequenzen oberhalb der Grenze mittels
Intensitätsunterschieden geortet werden. Bei der Laufzeitwahrnehmung
wertet das Gehirn Phasenunterschiede der an den Ohren ankommenden Welle
aus, während bei Intensitätswahrnehmung durch Abschattung des
Kopfes Pegelunterschiede auftreten, die die Richtung des Schallereignisses
angeben.
Die Wahrnehmung der Entfernung von Klängen wird bestimmt durch Intensität, Reflexionen und Hallanteil, sowie Luftabsorption.
Entfernt sich eine Schallquelle vom Hörer, so nimmt ihre Lautstärke mit der Entfernung ab. Diese Lautstärkeabnahme ist von mehreren Faktoren, wie Luftfeuchtigkeit, Temperatur und Windrichtung, abhängig.
Reflexionen und Hall sind wesentlich wichtiger innerhalb von Räumen, als im Freifeld, denn sofern keine Gebäude oder reflektierende Gegenstände vorhanden sind, kann es nur Reflexionen vom Boden geben.
Weiterhin gibt es noch Faktoren, die für die räumliche Ortung relevant, aber weniger bedeutend sind. Hierzu gehört die Ortung durch Frequenzunterschiede, die durch Abschattung und Reflexionen an und im Ohr hervorgerufen wird und die vor allem für die vorne-hinten und oben-unten ? Ortung verantwortlich ist. In diesem Zusammenhang ist wichtig, daß Schallquellen mit breitbandigen Frequenzanteilen, dessen Schalleinstrahlungsrichtung hinter dem Hörer liegt, vor allem durch Abschattung der hohen Frequenzen durch die Ohren, von hinten geortet werden können.
Um nun aus einem kohärenten Signal 2 inkohärente Signale zu erzeugen, kann man verschiedene Methoden der bereits erwähnten Pseudostereophonie anwenden.

Das am häufigsten genutzte Verfahren ist die Aufteilung des Eingangssignals mittels zwei ineinander verschachtelter Kammfilter, deren Spektral-anteile zu gleichen Teilen auf die beiden Lautsprecher verteilt werden (Lauridsen 1954). Mit dieser Methode erreicht man zwar ein gutes Stereobild, doch es treten merkliche Klangverfremdungen auf.
Eine weitere Methode ist die Benutzung von 2 Allpass-Filtern, die die Frequenzen nicht ändern, aber Phasenunterschiede erzeugen (Schroeder 1961). Damit lassen sich die Klangverfremdungen weitestgehend vermeiden, allerdings ist der Stereo-Effekt weniger stark oder es entsteht der Eindruck von Räumlichkeit durch Hall.
Die dritte gebräuchliche Methode ist die Aufteilung des Signals mittels Hoch- und Tiefpassfilter, während hohe und tiefe Signalanteile je auf einen Lautsprecher verteilt werden (Janovsky 1948).

Diese Methode hat den Vorteil, daß
erstens kaum Klangverfremdungen entstehen, da die Ohren die unterschiedlichen
Signale gegenseitig ergänzen und nicht separieren und zweitens trotzdem
ein breites Stereosignal entsteht. Nachteil ist hierbei allerdings, daß
die Ortung des Signals je nach Einstellung in die Richtung der hohen Frequenzen
rutscht, weil die Ortswahrnehmung der hohen Frequenzen dominierender ist,
als die der tiefen Frequenzen.
Die oben erwähnten Pseudostereophonie-Verfahren wurden auf das Surroundsystem übertragen, weiterentwickelt und in ihrer Wirkung untersucht. Zusätzlich wurden neue PseudoSurround-Verfahren entwickelt, die mit den modifizierten Verfahren verglichen wurden. Hierfür wurden in der Programmiersprache MAX 3.5.9 mit MSP-Erweiterung Programme geschrieben, die es ermöglichen, die verschiedenen Verfahren jeweils mit unterschiedlichen Einstellungen mit dem "Original" zu vergleichen.
Das "Original" bedeutet hier, daß das unveränderte Stereosignal mit gleicher Lautstärke auf vorderen und hinteren Lautsprechern zu hören ist, wobei vorne Links zusätzlich von hinten Links und vorne Rechts auch von hinten Rechts zu hören ist.
Jedes der Programme bietet die Möglichkeit zwischen den Eingangskanälen 1-2 und 3-4 des Audio-Interfaces und dem internen Soundfile-Player zu wählen. Weiterhin können Veränderungen an den Einstellungen des jeweiligen Algorithmus und an den Lautstärken der Ausgangskanäle vorgenommen werden. "Original-" und "PseudoVersion" können durch Umschalten direkt verglichen werden.5.1 PseudoSurround "COMB"
Die Gleichung eines Combfilters sieht folgendermaßen aus :
y(n) = x(n) + x(n-D) , wobei D das Delay in Form von Samples darstellt.

Wird das Delay größer als 0,1 Millisekunde, so entstehen mehrere Peaks (bei Addition), bzw. Nullpunkte (bei Subtraktion).
Diese befinden sich bei der Frequenz
(D = Delay in Samples und fs = Samplingfrequenz) und deren Vielfachen.
Wählt man also ein Delay von 0,1 ms bei einer Samplingfrequenz von 44,1 kHz, dann ist der erste Peak/Nullpunkt bei 441 Hz, der Zweite bei 882 Hz usw. Je größer das Delay wird, um so näher rücken die Peaks/Nullpunkte zueinander.
Das Ergebnis bezüglich der Räumlichkeit ist gut, denn der Hörer hat den Eindruck, daß der Klang klarer und offener wird.
Ändert man kontinuierlich das Delay von 0,1 ms bis zu 1 ms so hat man den Eindruck, daß die hinteren Lautsprecher akustisch nach vorne wandern. Im Bereich von 1 ms bis etwa 2ms passiert das Gegenteil, die Lautsprecher scheinen von vorne nach hinten zu wandern. Im Bereich 2 ms bis 5 ms treten räumliche Änderungen auf, die aber schwer beschreibbar sind. Bei einem Delay > 5 ms hat man zunehmend den Eindruck, Reflexionen in einem Raum zu hören. Diese Beschreibungen sind nicht belegt, sondern lediglich Hörempfindungen einer Person.
Ein Nachteil dieses Verfahrens ist, daß
sich gleichzeitig auch das Klangbild verändert, denn es entstehen
durch Überlagerung von Frequenzen Änderungen in der spektralen
Zusammensetzung des Klangs. Ein weiterer Nachteil ist die feste Einstellung
der Lautstärken aller Kanäle, denn sobald vordere und hintere
Lautsprecher unterschiedliche Lautstärken haben, wird sofort das Klangbild
verzerrt.
5.2 PseudoSurround "ALLPASS"
Der räumliche Eindruck dieses Verfahrens ist weniger stark und bei zu langen Delayzeiten entsteht der Eindruck, daß sich das Signal in einem verhallten Raum befindet.
Der Allpass-Filter verändert in erster Linie Phasen, während die Amplituden aller Frequenzen im Hörbereich gleich bleiben. Die folgende Gleichung beschreibt einen Allpass-Filter :
D ist das Delay in Samples, a der Feedback- und ?a der Feedforward-Koeffizient.

Im Vergleich zum PseudoSurround-Verfahren
mit Comb-Filtern bietet dieses Verfahren zwar mehr Flexibilität bei
der nach-träglichen Verwendung, allerdings ist das räumliche
Ergebnis nicht so befriedigend, wie beim vorhergehenden Verfahren.
5.3 PseudoSurround "FFT-SPLITTER"
Vorteil dieser Methode ist die genaue Trennung der Frequenzen auf vorderen bzw. hinteren Lautsprecher und die dynamische Änderung dieser Zuordnung in Abhängigkeit des Threshold-Wertes.
Bei der Transformation von der Zeit- in die Frequenz-Ebene entstehen aus Amplitude und Zeit eine reelle und eine imaginäre Zahl, die für die Berechnung der Magnitude dienen.
Die Formel für diese Berechnung lautet :
(Mag = Magnitude / R = Reelle Zahl / I = Imaginäre Zahl)
Durch diese Magnitude, die für jedes Frequenzband unterschiedlich ist und sich mit dem Eingangssignal verändert, solange es zeitvariabel ist, wird das Gate gesteuert, das die jeweilige Frequenz auf die vorderen oder hinteren Lautsprecher aufteilt.
Die Implementation im Programm MAX sieht folgendermaßen aus :

Beim Gate bedeutet ">", daß alle Frequenzen, deren Magnitude größer als der Schwellenwert ist, durchgelassen werden, während "<" bedeutet, daß alle Frequenzen deren Magnitude unterhalb desselben sind, durchgelassen werden.
Die Ergebnisse mit diesem Verfahren sind relativ gut, denn dadurch, daß nie dieselben Signale von vorderen und hinteren Lautsprechern gleichzeitig wiedergegeben werden, wird das Klangbild klarer und offener, da es keine Kammfilter-Effekte durch Überlagerung und Reflexionen innerhalb von Räumen kommen kann. Die Aufteilung in höhere und tiefere Frequenzen auf verschiedene Lautsprecher stellt für das menschliche Gehör kein Problem dar, da bei gleicher Lautstärke der Lautsprecher die Klangquelle immer dort geortet wird, wo der größere Anteil an hohen Frequenzen vorhanden ist. Dies ist beim PseudoSurround ?Verfahren weniger ein Problem, solange die Ortung der Schallquelle vorne bleibt, als beim LP-HP-PseudoStereo-Verfahren, bei dem die Ortung auf die linke oder rechte Seite rutscht.
Die Lautstärken können bei
diesem Verfahren leicht verändert werden, ohne daß starke Klangverfremdungen
auftreten. Nachteil dieses Verfahren, daß es sehr rechenintensiv
ist, da FFT und IFFT 4-fach berechnet werden muß und sehr rechenintensiv
ist.
5.4 PseudoSurround "FFT-FILTER"
Dieses Verfahren ist scheinbar das Vielversprechendste, da es einen sehr guten räumlichen Eindruck vermittelt und flexibler ist, als die vorhergehenden Verfahren. Es basiert auf den Prinzipien des Comb- bzw. LP-HP-Verfahrens, bietet aber keine dynamische Änderung der Einstellungen. Es werden auch hier FFT-Berechnungen gemacht, um Filter zu bekommen, die sehr genau gezielt einzelne Frequenzbänder in der Magnitude verändern können. Die Filtereinstellungen der Filter für die vorderen Lautsprecher werden genau umgekehrt auf die der hinteren adaptiert. D.h. wenn man für das gesamte Frequenzspektrum von0 Hz bis 22050 Hz 512 Frequenzbänder mit je einer Bandbreite von 43,1 Hz hat und eines dieser Bänder auf den vorderen Lautsprechern schließt, so wird nur genau dieses Frequenzband auf den hinteren Lautsprechern hörbar sein. Dies erlaubt eine sehr gezielte Veränderung der Frequenzaufteilung auf vordere und hintere Lautsprecher. Erstaunlicherweise nimmt auch hier das Gehör keine zwei verschiedenen Signale wahr, sondern ergänzt diese zu einem räumlicheren Gesamtsignal.
Bei der folgenden Grafik sind die 512 Frequenzbänder durch Zufall so eingestellt, daß jedes Frequenzband entweder nur vorne oder nur hinten hörbar ist.

Diese Einstellung erzeugt einen PseudoSurround-Effekt, der dem des Comb-Filters ähnlich ist, während aber bei diesem Verfahren keine Überlappungen der Filter vorhanden sind und dadurch weniger Klangverfärbungen auftreten. Nachteil dieser Einstellung ist wieder, daß die Lautstärken der Lautsprecher exakt identisch sein müssen, da sonst starke Klangverfärbungen auftreten.Bei der nächsten Abbildung ist zu sehen, daß über die vorderen Lautsprecher das Hochpass-gefilterte Signal und die Hinteren das mit denselben Einstellungen Tiefpass-gefilterte Signal zu hören ist.

Diese Einstellung entspricht fast dem LP-HP-Verfahren der Pseudostereophonie, nur in diesem Fall werden tiefe und hohe Frequenzen exakt auf die vorderen und hinteren Lautsprecher aufgeteilt, während bei anderen Filtern meistens Frequenz-Überlappungen entstehen.Während beim FFT-Splitter-Verfahren die Magnitude berechnet wird, müssen hier lediglich reelle und imaginäre Zahl pro Frequenzband mit einer Zahl multipliziert werden, um eine Anhebung oder Absenkung dieses Bandes zu erreichen.
Dies kann durch die Benutzung eines Tables, in dem die Anhebung und Absenkung pro Frequenzband gespeichert ist, erreicht werden.

Hört man z.B. Popmusik mit diesem Verfahren, so wird die Stimme mit Effekt klarer und deutlicher ortbar, als im Vergleich zum "Original" (siehe oben), bei dem die Stimme verschwommener zu sein scheint und mehrfach ortbar ist.Die Ergebnisse sind allerdings sehr davon abhängig, wie die Filtereinstellungen sind und es müßte noch mehr aus der Psychoakustik entnommen werden, welche Frequenzen für welche Art von Audiosignalen räumlich am wichtigsten sind.
Da dieses Verfahren die meisten Einstellmöglichkeiten durch Filter besitzt, sollte es anhand von Hörversuchen weiter untersucht werden, um den bestmöglichen räumlichen Effekt mit geringsten klanglichen Verlusten zu erreichen.
Die vorgestellten Verfahren zur Erzeugung von PseudoSurround-Signalen bieten die Möglichkeit aus einem Stereosignal ein PseudoSurround-Signal für 4 identische Lautsprecher zu erzeugen.
Je nach Verfahren ist die räumliche Aufweitung bzw. der räumliche Eindruck unterschiedlich groß.
Insgesamt lassen sich mit allen Verfahren Surroundsignale herstellen, die weiterverwendbar sind, ohne große Einschränkungen zu haben, in welchem Bereich sie weiterbenutzt werden. (Film, Musik etc.)
Einziger Nachteil dieser Verfahren ist die festgelegte Lautstärke, denn sobald vordere oder hintere Signale in der Lautstärke verändert werden, treten je nach Verfahren starke Klangverfärbungen auf. Die erzeugten Surroundsignale müssen also meistens gesamthaft in der Lautstärke verändert werden.
Außerdem funktionieren diese Verfahren weniger gut auf Surroundsystemen mit verschiedenen Lautsprechern, da diese meistens unterschiedliche Frequenzgänge haben.
Andere Verfahren, als die Vorgestellten,
wurden in Zusammenhang mit diesem Projekt auch untersucht, allerdings aufgrund
ihrer geringen Flexibilität oder Wirkung nicht weiterverfolgt.
In Anbetracht der Entwicklung der DVD, der Weiterentwicklung der Mehrkanal-Kinotonformate und der steigenden Verkaufszahlen von Surround-Verstärkern und DVD-Playern steigt auch der Anspruch an Möglichkeiten, Musik etc. räumlicher zu hören als bisher. Somit haben Geräte oder Programme, die aus der Vielzahl vorhandener Stereoaufnahmen PseudoSurround-Aufnahmen machen können, einen großen Nutzen. Weiterhin wäre es durchaus denkbar, die Verfahren für die Anwendung in mehrkanaligen Beschallungssystemen zu erweitern und weiterzuentwickeln.
Die Programme selbst sind auch noch ausbaufähig. Man könnte z.B. eine dynamische Steuerung der Filter beim FFT-Filter-Verfahren programmieren, bräuchte dafür allerdings einen sehr schnellen Computer.
Außerdem wäre es sinnvoll einen Subwoofer zu unterstützen, der die sehr tiefen Frequenzen des Eingangssignals wiedergibt, und damit den räumlichen Eindruck verstärkt, da diese Frequenzen nur schwer bis gar nicht ortbar sind.
Im großen und ganzen bietet der
Bereich der PseudoSurround noch viele Möglichkeiten der Forschung
und Entwicklung, da er noch relativ jung und unerforscht ist.
[3] J. Blauert, "Räumliches Hören" 1974, S. Hirzel Verlag Stuttgart[2] Durand R.Begault, "3D-Sound for virtual reality and multimedia" 1994, Academic Press London
[4] J. Blauert, "Räumliches Hören-Nachschrift" 1985, S.Hirzel Verlag Stuttgart[5] B. Enders, "Lexikon Musikelektronik" 1987, Piper-Schott Verlag Mainz
[6] J. Meyer, "Akustik und musikalische Aufführungspraxis" 1995, Verlag Erwin Bochinsky Frankfurt am Main
[7] John R. Pierce, "Klang-Musik mit den Ohren der Physik", Spektrum der Wissenschaft Heidelberg
[8] Curtis Roads, "the computer music tutorial" 1996, Massachusetts Institute of Technology
[9] I. Veit, "Technische Akustik" 1996, Vogel Buchverlag Würzburg
[10] E. Zwicker, "Psychoakustik" 1982, Springer Verlag Berlin- Heidelberg-New York