Lydkonvensjoner i lydfilmen

Lydkonvensjoner i lydfilmen av Arnte Maasø

«Only film scholars watch film. The rest of us listen as well». Ved rundingen av filmens første 100 år står det kanskje ikke riktig så ille til som det Thomas Elsaesser uttrykte på TV-dagene i Bergen i 1992. De siste årene har nemlig ikke bare filmskapere og publikum fått ørene opp for filmen, men også medievitere. Denne artikkelen drøfter noen av de filmlydkonvensjonene som er trukket fram i de siste årenes filmteori, og skisserer noen viktige endringer i bruk av lyd gjennom lydfilmens første 68 år.

De siste årene har filmskapere viet lyden en stadig sterkere oppmerksomhet, priser deles ut på filmfestivaler for god bruk av lyd, kinosalene oppgraderes med det siste skriket i lydsystemer og Flåklypa Grand Prix (Ivo Caprino, 1975) og andre mono-klassikere lanseres på nytt med digital stereo og surround sound. God bruk av filmlyd er ikke lenger kun forbeholdt de store 'autørene' i kunstfilmen, men er også vel etablert i mainstream-filmen. Og publikum, de kjøper lyden! Fra USA vet vi at dagens storfilmer spiller inn betydelig større beløp i kinosaler med nye (ogavanserte) lydsystemer enn gamle. Tendensen har vært tydelig siden Star Wars (George Lucas, 1977) spilte inn så store summer i saler med Dolby stereo, at filmen i ettertid har fått æren av å sette igang den største oppgraderingen av lydsystemer siden lydfilmens gjennombrudd (Schreger 1985). Hva så med lydfilmens fortellerspråk? Har filmens auditive fortellerteknikker også gjennomgått en like stor 'oppgradering'? Og hvilke fortellerteknikker er det overhodet snakk om?

Lyden i film unnslipper ofte oppmerksomheten til både lekfolk og forskere. På mange måter virker det som om lyden i film liksom springer naturlig ut av de bildene vi ser. Derfor legger vi sjelden merke til hvordan lyden er konstruert, eller overhodet at den er konstruert. Flere filmvitere omtaler dessuten lyd i film som om den (til forskjell fra bildene) ikke er en mediert versjon av virkeligheten, men nærmest et stykke virkelighet som uformidlet når publikum (Jfr. Maasø 1995, Altman 1992 og Lastra 1992). Et nødvendig premiss for denne artikkelen er at filmlyden, som bildene, fremstilles ut fra en rekke bevisste og ubevisste fortel-lerkonvensjoner. Sagt på en annen måte: i filmproduksjon lagres ikke lyd- hendelser, men de lages.

I denne artikkelen vil jeg antyde hvordan filmfortellingen ble påvirket av lydens gjennombrudd, beskrive det jeg oppfatter som noen av de mest grunnleggende lydkonvensjonene i film etter stumfilmens død, og skissere noen av de viktigste endringene i lydbruk frem til i dag. Jeg ønsker i utgangspunktet å inkludere alle typer lyd i diskusjonen, men vil også gå nærmere inn på enkelte typer filmlyd underveis. For enkelhets skyld vil jeg dele inn den videre beskrivelsen i forhold til kategoriene tid og rom.

Filmlyd og tid
Den synkrone lydens gjennombrudd Lydfilmens gjennomslag på 20-tallet skyldtes først og fremst det synkrone tidsforholdet mellom lyd og bilde. Den vellykkede bruken av synkron tale (og sang) er kanskje den viktigste årsaken til at nettopp Warner Bros.' The Jazz Singer (Alan Crosland, 1927) oppnådde så enorm popularitet. Selv om denne filmen i ettertid har fått status som den første lydfilmen, var likevel lyd i film på ingen måte nytt. Allerede i 1900 ble den første vellykkede fremvisningen av synkron lydfilm presentert på verdensutstillingen i Paris (Williams 1992:127); I 1908 ble Cameraphone systemets synkrone lyd-bilder en suksess i vaudeville oppsetninger i USA (Altman 1992:115f); Musikkindustrien introduserte synkrone musikkfilmer (datidens 'musikkvideoer') tidlig på 20-tallet (Altman 1992:116 og Williams 1992: 129ff); Og drøyt 1000 kortfilmer ble produsert med lyd fra 1923-1927 (Gorbman 1987). Likevel er det med filmen The Jazz Singer at den synkrone lydfilmen for alvor når et bredt publikum. Dessuten var lyden i The Jazz Singer ikke bare en festlig sirkus-attraksjon, eller bilder med musikalsk akkompagnement, men et vesentlig virkemiddel i filmfortellingen. I det en av karakterene i filmen skriker «STOP!», og musikken stanser, er publikum vitne til «one of the most momentous spoken words in all of sound cinema» (Williams 1992:131); filmen forener to typer audi-tive uttrykk, og skiller seg fra tidligere forsøk med bruk av enten musikk eller tale.

Etter 1927 blir den synkrone tale raskt etablert som en standard, men ikke uten motstand fra en rekke av datidens filmskapere og kritikere. En viktig årsak til dette var at lyden i stor grad påvirket det tidsmessige forløpet av bilder. Filmlyden medførte f.eks. en radikal forandring i opplevelsen av kontinuitet i forhold til stumfilmen. Kryssklipping eller hurtig montasje av lyder fra en rekke ulike tider og rom, virket ofte oppstykkende og skapte brudd. Derfor fikk stumfilmens montasje og kryssklipping
kontinuitetsproblemer, som tidligere blant annet var løst gjennom kinomusikk som limte bildene sammen. Motstanden mot bruk av synkron lyd blant en rekke filmskapere på 20-30 tallet skyldtes ikke bare lydteknologiens påvirkning på kameraets bevegelighet o.l., men må også tolkes i lyset av den forandringen synkron lyd medførte i forhold til filmens diakrone tidsakse.

Retningsstyring av tidsforløpet
En forutsetning for lydfilmens forening av synkrone lyder og bilder var standardiseringen av projeksjonstiden midt på 20-tallet (dvs. et fast antall ruter pr. sekund ved visningen av filmen). Denne standardiseringen var helt nødvendig, siden lyd og bilde var fysisk adskilt i avspillingssituasjonen, og først noen år senere ble forent på samme filmrull.[1] Stumfilmen hade ingen standard projeksjonstid, og varierte derfor sterkt fra kino til kino, samtidig som forholdet mellom opptakstid og projeksjonstid var flytende.

Filmviteren Michel Chion mener at denne standardiseringen av filmfremvisningen fikk store konsekvenser for fortellerspråket i film, og var en forutsetning for utviklingen av filmen som temporær kunstart (1994:16ff). Først da projeksjonstiden ble fastlagt, kunne filmskapere bevisst bruke tidsaksen som virkemiddel - f.eks. gjennom slow-motion - uten å risikere at effekten ble borte under filmvisningen. Chion (1994:17) nevner bl.a. filmene til Andrei Tarkovsky, som kalte film «the art of sculpting in time». Chion mener det ikke er mulig å oppnå den samme utnyttelsen av tidsforløpet uten bruk av lyd som virkemiddel. Lydfilmen innebar nemlig ikke bare en standardisering av fremvisningstiden i film, (dette kunne vi jo tenke oss ville ha skjedd uansett), men også en ny måte å oppleve film-tid på (1994:18ff). Dette skyldes i stor grad lydens retningsstyring av filmens tidsforløp (se også Williams 1992:128).

Vi kan f.eks. tenke oss en rekke stumme nærbilder av mennesker i en folkemasse. Disse bildene kan klippes sammen i ulike rekkefølger og til og med reverseres uten at tidsoppfattelsen nødvendigvis endres; forholdet mellom 'historietid' (det tidsforløpet som beskrives) og 'diskurstid' (tiden knyttet til fremstillingen av historietiden) er ikke fastspikret, heller ikke fortid og fremtid (bildene kan f.eks. betegne en pause i historietiden). Dersom vi legger lyd til disse bildene, forandrer tidsopplevelsen seg radikalt. Tale - spesielt synkron tale - «has the power to inscribe the image in a real and linearized time that no longer has elasticity», skriver Chion (1994:18). Et eksempel på talens retningsstyring er de siste elleve minuttene av filmen Maria Brauns ekteskap (Rainer Werner Fassbinder, 1978). Her ligger den tyske radiooverføringen av VM kampen i fotball mellom Tyskland og Ungarn under hele den siste scenen i det diegetiske lydbildet (dvs. lydene fra handlingens tid og rom). Radiostemmen binder derfor handlingens tid til 'realtime' (historietiden og diskurstiden er m.a.o. like).

Vår vestlige musikk inneholder også en lignende narrativitet eller rettethet som talen. Selv om musikk ikke er et språk i streng forstand, f.eks. med meningsbærende og meningsskillende minsteenheter, har også musikken en rettethet. I vestlig kunstmusikk er språkmetaforer som 'fraser' eller 'setninger' vanlige i beskrivelser av melodiforløpet. Innenfor denne musikkulturen er også enkelte harmoniske og melodiske progresjoner mer sannsynlige enn andre, og har ulik grad av spenning; Både i forhold til forløpet forut for det punktet vi befinner oss på i musikken, og i forhold til sannsynligeten av fremtidige bevegelser. Det sies at Nina Grieg brukte denne erkjennelsen for å vekke Edvard om morgenen. Hun spilte de første syv tonene i en dur-skala på klaveret
(do-re-mi-fa-so-la-ti¿), men lot være å spille den siste tonen (do). Spenningen fra den såkalte ledetonen hang i luften til Edvard ikke orket mer, og sto opp for å spille den forløsende tonen. Musikkens rettethet gjør det mulig å skape ulike effekter gjennom sammenkoblingen av musikk og bilde: binde ulike bilder tettere sammen, spenne forventninger hos lytteren til det som skal komme i det audiovisuelle forløpet etc. Ulike musikkstiler inneholder også forskjellig grad av rettethet, og får derfor forskjellige virkninger satt sammen med de samme bildene (Jfr. beskrivelsen av repetitive strukturer i TV-musikk i Maasø 1995:60ff).

De fleste såkalte punktlyder (dvs. korte lyder som skudd, slag o.l.), eller ikke-kontinuerlige reallyder, inneholder også en rettethet, på grunn av det teknikere og musikere kaller lydens envelope: dvs. 'begynnelsen', 'midten' og 'slutten' av lydens forløpskurve. Og selv kontinuerlige reallyder kan skape en slags rettethet, gjennom spenningsoppbygning eller forløsning. Jeg tror f.eks. de fleste har opplevd en forløsende følelse av stillhet etter at en ventilasjonsvifte har sluttet å dure, selv om vi tidligere kanskje ikke hadde lagt merke til lyden.

Stillheten og vifte-lyden blir altså ekstra meningsbærende når de oppleves i sammenheng med hverandre gjennom et tidsforløp. På en lignende måte kan én kontinuerlig ubehagelig lyd oppleves som stadig mer spenningsskapende jo lenger den varer.

La meg bruke et eksempel fra stumfilmen, for å belyse disse poengene bedre. I The Girl and Her Trust (1912) av D.W. Griffith er det en scene hvor skurkene - som har bortført en skjønn jomfru - flykter på en dresin. Vår mann tar opp jakten med et lokomotiv. I den følgende forfølgelsessekvensen kryssklippes det mellom skurkene og helten, inntil skurkene til slutt blir tatt igjen og overmannet (se en detaljert beskrivelse av filmen i Branigan 1992:63ff). I denne sekvensen er vi ikke i tvil om at et klimaks nærmer seg, og at helten nærmer seg skurkene; men ingen av bildene fra jakten gir oss noen antydning om avstanden mellom dem i tid eller rom. Det er f.eks. ingen totalbilder som viser begge i bildet samtidig, eller visuelle bakgrunnsdetaljer som antyder hvor de to er romlig plassert i forhold til hverandre. Et resultat av dette er at det i stor grad overlates til vår fantasi å bestemme tidsforholdet mellom de to 'hendelsene' det klippes mellom. Sekvensen kan oppleves som et kontinuerlig tidsforløp (a-b-c-d-e), simultane hendelser (a-a-b-b-c-c), delvis overlapping (a-ab-bc-cd) sprang i tid (a-c-e-g-i) eller en blanding av disse.

Branigan analyserer denne sekvensen i forhold til bl.a. klipperytmen. Denne intensiveres og bygger opp mot et klimaks der hendelsene forenes i samme tid og rom, og jakten avsluttes. La meg gå et skritt videre og spekulere på hva som ville skje dersom vi la lyd på de stumme bildene, for eksempel reallyder fra lokomotivet og dresinen, og heltinnens hjerteskjærende rop om hjelp. Til å begynne med ville det kunne være rene klipp mellom de to 'hendelsene', med helt adskilte lydhendelser. Men ettersom de to 'hendelsene' nærmer seg hverandre i rom, må dette også gjenspeiles på lydsiden. Før det endelige klimakset vil f.eks. alle karakterene være innenfor rekkevidden av hverandres hørsel, og det støyende lokomotivet vil nødvendigvis være hørbart fra dresinens lytterposisjon før helten eventuelt hører skrikene om hjelp. Dersom lydsporet speiler at de to hendelsene nærmer hverandre gradvis i rom (som jo de stumme bildene legger opp til), vil dessuten lydene mot slutten av jakten gi oss en idé om forholdet i tid og rom mellom hendelsene tidligere i jakten.

Det er selvsagt mange mulige måter å legge lyd til disse bildene, som underbygger usikkerheten i tid/rom forholdet, eller utvisker enhver tvil. Man kunne f.eks. velge å kun bruke ikke-diegetisk filmmusikk (altså musikk som bare publikum hører, men ikke karakterene i fortellingen) uten reallyder eller tale, og derved opprettholde vagheten; man kunne - som jeg antydet over - legge på reallyder og rop om hjelp, og derved binde hendelsene fastere sammen; man kunne spikre hendelsene fast til hverandre
ved hjelp av en lydbro mellom hendelsene (f.eks. at heltinnen skriker ut en setning som begynner og slutter på hver sin side av bildeklippet), eller man kunne bruke én gjenkjennelig punktlyd - f.eks. et pistolskudd - som gjengis i hvert av bilderommene, og derved binder tidsforløpene sammen.

I Mystery Train (1989) har Jim Jarmusch brukt de fleste av disse auditive virkemidlene (og flere til). Tre parallelle historier syes sammen i tid og rom av lyden av et pistolskudd. Andre tidspunkter bindes sammen av stemmen til Tom Waits som er DJ på en lokal radiostasjon. Radiostemmen brukes ofte som lydbro mellom hendelser i ulike rom til samme tid osv. Disse lydene fungerer derfor som vektere i filmen, som roper ut tiden og synkroniserer de ulike hendelsesforløpene i forhold til hverandre.

Synkrone møtepunkter og temporær magnetisme
Forskning på spedbarn tyder på at den synkrone koblingen av lyd og bilder er grunnleggende i sansning. Spedbarn velger å se på en TV-skjerm som viser et ansikt med synkron tale, fremfor en skjerm som viser det samme ansiktet med usynkron tale. Dessuten mister de interessen for den første skjermen hvis synkroniteten forskyves slik at leppebevegelsene blir noen tideler usynk. (Jfr. Bregman 1990:181). I lydfilmen er også den synkrone koblingen av lyd og bilde grunnleggende. Det er likevel stor forskjell på i hvor stor grad bilde og lyd er knyttet sammen underveis i tidsforløpet i ulike filmer eller deler av filmer, og også store kulturelle forskjeller mellom ulike land. Ofte er lyd og bilde bare koblet sammen ved det Chion kaller synch points; dvs. et audiovisuelt møtepunkt mellom lydhendelse og bildehendelse (1994:223). Så godt som alle audiovisuelle tekster har fordelt slike synkrone møtepunkter utover i teksten. Selv i musikkvideoer - som på mange måter kjennetegnes ved at bildet flyter fritt oppå en lineær strøm av musikk - kommer lyd og bilde sammen i synkrone møtepunkter i form av f.eks. markerte klipp eller sjokk-zoomer, som sammenfaller med markeringer i musikken; eller i bilder av sangere, musikere eller dansere som mimer til musikken. Dessuten tolker vi lyd og bilde i et vertikalt eller synkront forhold også når det ikke finnes åpenbare synkrone møtepunkter; dels på grunn av de innarbeidede audiovisuelle forventningene om synkronitet, dels på grunn av vår persepsjonspsykologiske tilbøyelighet til å lete etter sammenhenger, 'fylle hull' og skape meningsfulle koblinger når vi tolker en tekst (se også Bordwell 1989 og Branigan 1992). Likevel legger vi som regel tydeligere merke til bildeklipp som sammenfaller - eller ligger nær - en tung markering på lydsiden, mens vi lettere overser off-beat klipp. Bilde og lyd har med andre ord en magnetisk tiltrekningskraft på hverandre i forhold til opplevelsen av tidsforløpet. La meg belyse dette ved en litt spesiell fortolkning av et filmeksempel.

På en forelesning høsten 1994 viste komponisten og lyddesigneren Randall Meyers et utdrag fra filmen Mississippi Burning (Alan Parker, 1988) med musikk av Trevor Jones. Sekvensen, som kommer en halvtimes tid ut i filmen, består av kryssklipping mellom to parallelle hendelser: en hær av FBI-menn på vei til Mississippi, og Ku Klux Klans herjing samme sted. Bildene er åpenbart redigert til musikken, bl.a. fordi bildene aksentuerer viktige rytmiske markeringer. Grunnen til at jeg stopper ved dette eksempelet er Meyers insistering på at det ikke fantes: «one single off-beat cut here!». Han fremhevet tvert i mot at alle bildeklippene sammenfalt med rytmiske markeringer i musikken. Ved en nøyaktig transkribering av hvert enkelt bildeklipp og hver rytmiske markering viser det seg at dette ikke er riktig. Av de 32 bildeklippene som finnes i løpet av de 77 sekundene (og 23 taktene) sekvensen varer, er 19 klipp on-beat i forhold til markeringene i musikken, mens 13 bildeklipp definitivt er off-beat. Med andre ord kan selv en fagmann som Meyers bli forført av den temporære magnetismen tunge auditive markeringer kan ha på opplevelsen av bildeklipp. Sterkt repetitive og tunge musikalske markeringer - som i dette eksempelet eller i de fleste musikkvideoer - har antakelig også en sterkere magnetisk tiltrekningskraft på bildene enn andre typer musikk, fordi vi forventer en sterk grad av gjentakelse takt for takt.

Tidsmessig magnetisme er en kjent effekt blant redigerere (selv om de ikke bruker det samme begrepet). De forsøker ofte å unngå 'synkron' klipping av lyd og bilde dersom de ønsker å oppnå 'usynlig' kontinuitet; mens de klipper direkte på audiovisuelle møtepunkter dersom de av ulike årsaker ønsker å fremheve eller understreke et klipp, som f.eks. ved sjokkeffektene i skrekkfilm.[2] Den samme fortolkningseffekten tror jeg også ligger til grunn for Gorbmans begrep accidental synchronization (1987:15), som betegner de ofte merkelige og uventede koblingene som oppstår når man prøver ut ulike typer musikk og musikkutsnitt til de samme bildene.

Ikke alle tekster har en like stram synkronitet, og opplevelsen av synkron realisme varierer sterkt i forhold til typen lyder og lydkilder. Ofte har lyd og bilde f.eks. et løst synkront samsvar når det gjelder reallyder som ikke har en visuelt fremtredende lydkilde, eller tale filmet på lang avstand (Jfr. Altman 1992:251). Audiovisuelle tekster som fokuserer på (synlig) tale, har som regel et kontinuerlig og tett synkront samsvar mellom lyd og bilde. Likevel finnes det interessante kulturelle forskjeller nettopp når det gjelder produksjon og resepsjon av tale. La meg forsøke å trekke frem noen aspekter ved filmhistorien som har vært sentrale for utviklingen av ulike kulturelle konvensjoner og nasjonale tradisjoner i forhold til tale og leppesynk.

Tale, tekst og dubbing
Det har i nesten hele lydfilmens historie vært mulig å dubbe en annen stemme til et bilde, enn den stemmen som opprinnelig lød. Men dette har vært - og er - en svært ressurskrevende prosess. I Norge (og mange små filmnasjoner) har vi siden lydfilmens gjennombrudd tekstet utenlandske filmer, hovedsaklig av økonomiske årsaker. Men selv om vi i dag ville hatt råd til å dubbe film, er opplevelsen av å høre filmer på originalspråket blitt en så viktig realismefaktor at det er utenkelig å gå over til norsk dubbing av utenlandske filmer (med et selvsagt unntak av filmer beregnet på barn som ikke kan lese).

Nordmenn er dessuten så vant til å lese teksting på TV-skjermen at vi ikke vurderer det som særlig forstyrrende at opptil 20% av bildet forsvinner bak tekstlinjene. I land der dubbing er den dominerende praksisen, vil teksting derimot i stor grad svekke opplevelsen av realisme (Jfr. Haddal 1989:19). Denne mediehistoriske tradisjonen er en viktig forklaring på hvorfor nordmenn vurderer leppesynk som en sterkere autentisitetsmarkør enn f.eks. italienere og tyskere, som har lange tradisjoner med å dubbe utenlandske filmer til sitt eget språk.

Natasa Durovicova (1993:149ff) beskriver overgangen til nasjonale tradisjoner i lydfilmen. (Stumfilmen var jo i stor grad uavhengig av nasjonale og språklige barrierer). Hun viser bl.a. hvordan nasjonalspråket i film ble en viktig politisk sak for både Mussolini og Hitler, som koblet det til nasjonalisme og fascisme. Begge innførte lover (i henholdsvis 1929 og 1933) som påbød dubbing av utenlandske filmer, og ga deres egne (ikke-jødiske) filmarbeidere enerett til dette arbeidet. Begge brukte også
den muligheten dette innebar til å manipulere med oversettelsene i propagandaøyemed.

I disse landene har man gjennom filmhistorien utviklet et mye løsere forhold til leppesynk som autentisitetsmarkør. Man er derfor heller ikke så opptatt av å legge forholdene til rette for leppesynk i produksjonsprosessen. Federico Fellini pleide, for eksempel, å skrive deler av dialogen etter opptak. Skuespillerne ble henvist til å bable høyt der dialogen manglet i manus, og heller konsentrere seg om kroppsspråket og skue-spillet, slik Fellini instruerte det underveis i opptaket.

De Hollywoodfilmene vi ser på kino er også dubbet, og lydsporet er ofte skapt i sin helhet i postproduksjonsfasen, som i italiensk film. Men i Hollywood dubber skuespillerne vi ser i bildet (nesten alltid) sine egne stemmer på sitt eget språk. Dette gjør det lettere å opprettholde en tett leppesynk. Selv om bilde og lyd på denne måten er et resultat av profilmiske hendelser som er adskilte fra hverandre i tid og rom, oppdager vi derfor sjelden store brudd på leppesynk-konvensjonen i den ferdige
filmen. Italiensk film har en annen historisk tradisjon og et annet forhold til leppesynk. I Cinema Paradiso (Guiseppe Tornatore, 1989) for eksempel, er hovedpersonen Alfredo spilt av en franskmann (som ikke snakker italiensk), mens stemmen er snakket inn på siciliansk dialekt av en annen skuespiller. Naturlig nok fører dette til en svært løs leppesynk.

Filmlyd og rom
Det naturlige lydsporet
På samme måte som med tidsmessig synkronitet blir opplevelsene av audiovisuelt rom vurdert ut fra mottakerens forventninger og kodefortrolighet. Dersom fremstillingen oppfyller våre forventninger, tenker vi som oftest ikke over hvordan de er konstruert. Dersom en tekst derimot bruker alternative eller 'opposisjonelle' fortellermåter, får den ofte en fremmedgjørende effekt, og krever publikums aktive medvirkning i forhold til selve fortolkningen av fremstillingen. Et kjent eksempel på dette er Jean-Luc Godards auditive stil. Denne bryter med tilvendte koder og gjør oss derfor samtidig oppmerksomme på dem. Alan Williams (1985) skriver: We are so accustomed to 'inaudible' sound manipulations that Godard's café seems acoustically strange while Hollywood's does not. Commercial narrative sound recording practices employ literally hundreds of edits and changes of level per sequence and yet these are quite difficult to hear without practice. Godard's (generally) omnidirectional microphones and his refusal to mix and edit sound within a track once recorded result in a sonic texture that is continuously audible, both by the fact of implicit comparisons with 'normal' sound and by the work required in listening. (op.cit:337)

Når Godard retter mikrofonen bort fra den som snakker, tydeliggjør han den tilsynelatende selvsagte praksisen med å rette mikrofonen mot lydkilden. Slike kodebrudd gjør det derfor lett å oppdage de auditive konvensjonene. Dette er derimot langt vanskeligere i tekster som opererer innenfor konvensjonene. En måte å bli oppmerksom på slike konvensjoner på, er å gå tilbake i tid til et punkt i historien da det ennå var 'strid' om fortellermåter, og hvor ulike representasjonsstrategier var gjenstand for åpen diskusjon blant filmarbeidere. Rick Altman har gjort dette i forhold til representasjon av rom i Hollywoodfilmen. Han har gått tilbake til lydfilmens barndom og følger sporene etter etableringen av ulike romlige filmkoder gjennom filmanalyser og fortolkning av debatten mellom lydteknikere i datidens fagtidsskrifter.

I «The Technology of the Voice» (1985) viser Altman at man i begynnelsen av lydfilmens historie forsøkte å etterape 'naturlig' persepsjon og hørsel i lydfilmen. Ett av hovedproblemene var å forme mikrofonens monaurale opptak etter vår binaurale hørsel. (Binaural hørsel betyr bruk av begge ørene, mens monaural hørsel betyr bruk av ett øre. Et binauralt avspillingssystem - f.eks. et stereoanlegg - kan godt gjenskape et monauralt perspektiv, mens et monauralt avspillingssystem - f.eks. en (mono) radio - kan illudere binauralt dybdeperspektiv, men ikke binauralt retningsperspektiv). When we listen to sounds directly, in the real world, our binaural auditory system helps us to choose those sounds that we prefer to hear. By directing our hearing toward a specific sound we cut down on the effective level of reflected sound, thus maximizing the amount of direct sound heard. We can recognize this fact easily " by covering one ear and attempting to concentrate on a specific sound; when we do so the reverberation level is markedly increased and our understanding of any particular sound clearly diminished. More fully explained in 1950 by Colin Cherry and dubbed the «cocktail party effect», the individual's ability to listen selectively is destroyed by a monaural reproduction system. (op.cit:13)

Lydopptak med en såkalt omnidireksjonal mikrofon medfører altså 'unaturlig' mye reflektert lyd, og tar opp alle lydhendelser i like stor grad, uten å fokusere på enkeltlyder. Gjennom den tekniske utvikling av mikrofonen forsøkte man på 30-tallet å gjøre monaurale opptak mer lik binaural hørsel. Den retningsstyrte mikrofonen var en av de viktigste innovasjonene i representasjonsteknologiens forsøk på å simulere vår naturlige hørsel, fordi denne mikrofonen kunne fokusere på enkeltlyder. Denne og andre tekniske innovasjoner i lydfilmens første tiår gjorde derfor auditiv representasjon gradvis mer lik vår selektive hørsel. Men representasjonsteknologien klarte selvsagt aldri å imitere hørselen helt. Dessuten innebar koblingen av lyd og bilde utfordringer som ikke var sammenlignbare med 'naturlig' persepsjon: ikke minst vedrørende visuelt kontra auditivt perspektiv.

Altman finner ut at oppmerksomheten etter hvert ble fokusert rundt ett problem: The single most important question occupying Hollywood sound technicians during the late twenties and early thirties was this: what relationship should [there be] between image scale and sound scale? (Altman 1992:46, mine uthevinger) Til å begynne med drømte filmskaperne om et perfekt samsvar mellom lyd og bilde, men problemene tårnet seg fort opp: Skulle det tas flere parallelle lydopptak med ulik avstand til det avbildede objektet?; Skulle man etterape kameraets 'deep-focus' eller 'long shots'?; Skulle man eventuelt skifte lydperspektivet hver gang man klippet bildet?; Og kunne man ha bildeklipp midt i en monolog? Etter en relativt kort periode med prøving og feiling, og stadige tekniske innovasjoner, utviklet det seg en dominerende praksis: " the technicians no longer sought to match sound scale to image scale through «correct» microphone placement, but instead sought to produce a continuous sound track of nearly level volume and unbroken close-up characteristics. Throughout the thirties it was for the clarity of their sound tracks that sound technicians had been praised and rewarded, rather than for their spatial realism. " Sound was not yet in its teens and already sound technicians had reversed their position about sound space, not only in theory but also in practice. (op.cit:54f, mine uthevinger) Det tydelige lydsporet Altman viser hvordan kravet om narrativ tydelighet vinner gjennom som overordnet representasjonskode, mens den 'naturlige' representasjonen taper i første omgang. Det såkalt uniforme lydperspektivet, som Altman beskriver, blir altså representasjonsstrategien som sikrer den narrative tydeligheten i Hollywoodfilmen. Som så mange andre fortellerstrategier fikk denne gjennomslag i resten av den filmproduserende verden også, som den kanskje viktigste av alle kontinuitetsfaktorer i filmfortelling.

Det uniforme lydperspektivet innebærer selvsagt ikke at lyden eller bildet ignorerer hverandres perspektiv totalt. Nesten alle filmer har et nært samsvar mellom lyd- og bildeperspektiv i enkeltscener eller sekvenser. Dette gjelder i særlig grad reallyder eller bakgrunnslyder, og spesielt i sekvenser der romperspektivet har en vesentlig narrativ betydning (for eksempel i markering av et lyttende narrativt subjekt, overgangen fra eksteriør til interiør, etablering av nye locations o.l.). Dialog er derimot i mye større grad enn reallydene preget av et uniformt og kontekstløst perspektiv, særlig innenfor enkeltsekvenser eller scener. For eksempel vil de fleste filmer gjengi dialog i et frontalt lydperspektiv, uansett hvilken vei karakterene står vendt i forhold til kameraet (m.a.o. er dialogen snakket direkte mot mikrofonen uten å være reflektert rundt i rommet først, slik lyden vanligvis blir når vi snakker til noen med ansiktet vendt vekk fra dem). En annen sentral dimensjon ved auditivt romrepresentasjon er gjengivelsen av retning. På mange måter var retningsperspektivet enda mer uniformt enn dybdeperspektivet i film, fordi lyden i flere tiår ikke bare ble tatt opp, men også gjengitt monauralt fra sentral plasserte høyttalere bak, eller rett ved siden av, lerretet. Vi tilskriver likevel monaural lyd en viss grad av retningsperspektiv gjennom det Chion (1994:224) kaller bildets romlige magnetisme. (Persepsjonspsykologer kaller dette buktaler effekten. Jfr. Bregman 1990:290f). Chion beskriver den romlige magnetismen som: " locating a sound's source in the space of the image, no matter what the real point of origin of the sound in the viewing space is, e.g., one will mentally place a voice as coming from offscreen left, in tandem with visual indications about the person speaking, even though the sound really emanates from a speaker behind the center of the screen. (loc.cit.) Lydfilmen baserte seg derfor ikke bare på uniformitet og kontinuitet med hensyn til frontalitet, volum og dybdeperspektiv, men også på en slags auditivt sentralperspektiv som medførte et 'innbilt' retningsperspektiv på grunn av den romlige magnetismen. Det uniforme sentralperspektivet ble etterhvert en så selvfølgelig del av filmens representasjonskoder at mange reagerte på alternative forsøk som sprang ut av nye innovasjoner som stereo og surround gjengivelse av auditivt rom. Charles Schreger (1985:352) kritiserer, for eksempel, en sekvens i The Deer Hunter (1978) av Michael Cimino for å være «needlessly disorienting», på grunn av det auditive 'aksebruddet' som oppstår når (stereo)lydsporet etteraper den visuelle 'shot - reverse shot' teknikken. Bakgrunnslydene kastes derfor frem og tilbake (fra høyre til venstre) i lydbildet, i stedet for å opprettholde ett uniformt retningsperspektiv uavhengig av bildeklippene.

Chion (1994:70-84) skriver at overgangen til Dolby stereo på 70-tallet førte med seg mange nye problemer med å tilpasse de gamle lydkonvensjonene til den nye avspillingsteknologien (se beskrivelsen av lignende problemer på 50-tallet i Belton 1992). I begynnelsen hadde man f.eks. stadige problemer i forhold til gamle kontinuitetskonvensjoner og 'matching' av romgjengivelsen i lyd og bilde (som f.eks. i The Deer Hunter). Etter hvert gikk man over til en mer moderat bruk av såkalte in-the-wings effekter (dvs. lyd i ytterkanten av høyre/venstre perspektivet) og travelling sounds (dvs. lyder som forflytter seg fra en side til en annen i høyre/venstre perspektivet). Man gikk isteden over til å blande det gamle monaurale sentralperspektivet, og den nye binaurale lydgjengivelsen i et 'virtuelt' rom. De sentrale narrative hendelsene ble gjengitt i sentralperspektiv (spesielt tale), mens mye av det krydderet (reallydene) som er viktig for stemningen, dramatikken og atmosfæren i filmen ble panorert ut i kantene av lydperspektivet. Chion (1994:83ff) nevner Die Hard (John McTiernan, 1988) og andre actionfilmer som eksempler på denne blandingspraksisen, med såkalt offscreen trash i yttergrensene av lydhorisonten (eller fra en posisjon bak mottakeren) på eksplosjoner, biljakter etc. Die Hard with a Vengeance (John McTiernan, 1995) er et tydelig eksempel på denne praksisen. I denne filmen utvides retningsperspektivet sterkt i de dramatiske sekvensene, for så å snurpes sammen til et smalt sentralperspektiv i deler med mye dialog, eller i viktige narrative passasjer. Hør, for eksempel, på lydperspektivet når skurken Simon ringer og ber om å få snakke med politisjefen. Plutselig forsvinner alle de hektiske lydene fra politistatsjonen, som vi tidligere hørte til høyre, venstre og bak oss. Telefonsamtalen og den følgende dialogen er gjengitt i et sterkt fokusert nær- og sentralperspektiv, som siden åpnes opp og utvides når vår mann John McClane blir sendt på tur til Harlem bærende på en «I hate niggers»-plakat. Offscreen-lyder inneholder ofte informasjon som ikke gis andre steder i teksten, og er ofte av stor betydning for vår opplevelse av det diegetiske rommet på lerretet. Lyden utenfor lerretet fyller inn ting vi tror vi ser, men som bare høres. Men offscreen retningsperspektivet vil ikke - iallfall ikke såvidt jeg har observert - være avgjørende for den narrative forståelsen (f.eks. om historien, plottet). Auditive retningstegn opptrer ikke alene som betydningsbærere, men kombinert med f.eks. visuelle konvensjoner som point-of-view shots, eyeline match e.l., og vil derfor ikke miste sin betydning ved avspilling i mono (som på de fleste fjernsynsapparater). Nesten hele det opplevelsesmessige aspektet ved lydperspektivet blir derimot borte gjengitt i et monauralt perspektiv. Det er ikke tilfeldig, tror jeg, at det nettopp er i actionfilmer og thrillere at offscreen-lyder har en forsterkende følelsesmessig effekt. Slike filmer er spekket med audiovisuelle opplevelsesmessige attraksjoner - det Gorbman (1987) kaller 'spectacles' - som øker behaget, spenningen, frykten e.l.; ofte ved hjelp av nye teknologiske innovasjoner (widescreen, 3-D, stereo, surround sound osv). John Belton (1992:160) fremhever at 50-tallets nye bilde- og lydformater ofte ble opplevd som et realisme-overskudd eller «excess». Publikum opplevde både en økt realisme, og en opplevelsesmessig attraksjon. På den samme måten tror jeg dagens retningsstyrte offscreen lyder virker som en ekstra følelsesmessig turbo for kinopublikumet.

68 år med filmlyd
De fleste av de auditive fortellerkonvensjonene jeg har beskrevet over var grunnlagt allerede i løpet av det første tiåret med lydfilm, og lever fremdeles i beste velgående. Likevel har viktige endringer funnet sted, spesielt i forhold til fremstilling av romlig retningsperspektiv. Store endringer har også funnet sted når det gjelder hvilke typer lyder som slipper til på filmens lydscene, og måten disse brukes på i filmfortellingen. La meg kort antyde det jeg opplever som vesentlige forandringer i bruk av lyd fra slutten av 20-tallet og frem til i dag, og knytte det til det som ofte betegnes som filmlydens treenighet: tale, filmmusikk og reallyder, og forholdet mellom disse.

Siden midten av 30-tallet har iscenesettelsen av stemmen (synkronitet, uniformt volum, nærlydperspektiv, sentralperspektiv, frontalitet etc.) forandret seg lite i mainstream-filmen. Alternative praksiser har funnet sted i smale filmer, som f.eks. Marguerite Duras' bruk av asynkrone tale, men har fått lite gjennomslag i andre typer filmer. De teknologiske nyvinninger har heller ikke påvirket fiksjonsfilmens fremstilling av tale i særlig grad, bortsett fra at den tekniske lydgjengivelsen av talen er blitt bedre.[3] I dag utnyttes bare unntaksvis de mulighetene teknologiske innovasjonene har gitt til avvikende praksiser (f.eks. overlappende dialog - dvs. at flere snakker i munnen på hverandre - som i Robert Altmans filmer).

Filmmusikken har forandret seg mer enn talen. Den største endringen mener jeg vedrører musikkens funksjon og struktur sett i sammenheng med bildene og tidsforløpet i filmfortellingen. Det er ikke lenger selvsagt med det Chion (1994) kaller empatisk musikk som lever seg inn i filmfortellingen, og fortolker - eller etteraper - det som skjer i bildene (som f.eks. ved såkalt mickey-mousing). Stadig oftere opplever vi likegyldig (an-empathetic) musikk som rytmisk og strukturelt sett forholder seg likegyldig til det visuelle forløpet, og som ofte ikke fyller noen annen rolle enn å sikre fravær av stillhet, lime sammen og 'sprite opp' bildene. Dette betyr ikke at musikken er dårligere, eller kjedeligere, bare at musikken ikke lenger bare lar seg diktere av det visuelle forløpet, men går sine egne veier. I forlengelsen av dette kan vi også merke tendensen til fragmentering og oppstykking av det musikalske forløpet. Musikk klippes rett til annen musikk, eller brytes bare rett av (hør f.eks. på David Lynchs Wild at Heart (1990), som forøvrig har ekstremt mye musikk). Musikken virker derfor ganske annerledes på retningsstyringen av det diakrone filmforløpet i dag enn tidligere i filmhistorien. Fjernsynsmusikkens fragmenterte musikkspor med mye likegyldig musikk har etter mitt skjønn smittet kraftig over på filmmusikken, og er en nøkkel til forståelsen av denne utviklingen (se Maasø 1992 og 1995). Likevel er dagens filmmusikk fremdeles langt mer empatisk og gjennomkomponert enn musikk i TV, noe som ikke minst henger sammen med de radikalt forskjellige produksjonsforholdene i de to mediene. Filmens reallyder har gjennomgått den største og mest åpenbare forandringen av de tre hovedtypene filmlyd. Aldri tidligere har filmen vært så tett befolket av lydhendelser fra filmfortellingens rom som i dag. Dessuten favner filmen over et mye større diegetisk rom enn tidligere. I de tidlige lydfilmene innskrenket reallydene seg stort sett til de viktigste av lydkildene som var synlig på lerretet: skritt, dører, ringeklokker, knyttneveslag, whisky som ble skjenket e.l. I dag har offscreen-lydene fått en langt viktigere rolle i filmfortellingen. Nesten alle storfilmer de siste 15 årene har gjennomarbeidede lydkulisser som er sentrale for atmosfæren og stemningen i filmen, eller som til og med bibringer vesentlig narrativ informasjon som ikke gis andre steder i filmen. Siden 70-tallet har vi betegnende nok også fått en ny yrkestittel som signaliserer oppvurderingen av det arbeidet som legges ned i å bygge opp det diegetiske lydrommet på og utenfor filmlerrettet: lyd-designeren.

I tråd med den økte 'kvantitative' betydningen i filmen, har reallydene dessuten gjennomgått en 'kvalitativ' endring, og i stadig større grad overtatt en 'musikalsk' eller fortolkende rolle. Chion (1994) bruker begrepet rendering sounds om slike reallyder, og nevner igjen actionfilmer, skrekkfilmer og thrillere som typiske eksempler. Den økte bruken av reallyder eller bakgrunnslyder har bidratt til at lydsporet i dagens film er mye tettere enn før. Talen troner ikke alene i filmens forgrunn, men veves inn blant reallyder og musikk; sagt på en annen måte er det gamle lydhierarkiet i oppløsning. I stadig større grad virker lydene sammen, som tre musketerer: én for alle og alle for én, og veksler på å spille hovedrollen. Jeg tror det er viktig å være oppmerksom på denne utviklingen, ikke minst i forhold til filmteoretiske perspektiver tilknyttet opplevelsen av lyder og bilder. Larsen (1988) skriver f.eks: " talen og musikken dukker op, diskontinuert, «punktvis», som en slags inskud på forskjellige steder i forløpet. Tale og musik kan naturligvis være af overordentlig stor betydning for helheten, men er altid i en vis forstand føyet til eller «inlejret» i bilderne. (op.cit:23, uten note). Det samme hevder også Braaten & Toft (1989), og bruker sågar samme formulering - innleiret - når de beskriver hvordan talen rammes inn av bildene. I lydfilmens spede barndom er beskrivelsene dekkende nok (og tildels også på The Big Sleep (Howard Hawkes, 1946) som er Larsens eksempel). Den gang var filmen i lange passasjer fremdeles ren stumfilm, og lydsporet var så godt som stumt i hullene mellom dialogen og musikken. I dag har reallydene derimot en så fremtredende og betydningsfull plass i filmens lydbilde at det ikke gir mening å snakke om innskutte lyder på en sammenhengende bildebakgrunn. Kanskje er det snarere slik at det er vi som mottakere, som er innleiret av lyder, eller i alle fall omsluttet av dem?

Etter innovasjonene i «surround sound», og den fortellermessige utnyttelsen av denne teknologien, er mottakerne i alle fall bokstavelig talt omringet av lyd. Kanskje er det nettopp den omringende opplevelsesmessige effekten dagens kinofilm har, som skiller den mest fra filmlyd for 68 år siden? Filmlyd i dag er ikke så radikalt annerledes, eller bedre, enn før, det er bare så mye mer av den.

Norsk medietidsskrift, nr. 2/95. (1995)

Noter
1. Western Electrics og Warner Bros.' Vitaphone var det systemet som ble brukt i The Jazz Singer og de samtidige kortfilmene med lyd. Dette systemet besto av lydplater (sound-on-disc) som ble avspilt synkront med filmbildene. Fox's Movieola var det første suksessfulle 'sound-on-film' systemet, hvor lyd og bilde lå sammen på film-rullen. Men dette systemet fikk av ulike grunner først gjennomslag (i fiksjonsfilm) et par år etter The Jazz Singer. Jfr. Handzo (1985:387ff) eller Allen & Gomery (1985:122f).

2. Se også beskrivelsen i Maasø (1992) av den tunge redigeringsstilen i Alex-innslagene i NRKs «U», og redigerernes beskrivelse av hvordan de forsøkte å oppnå denne effekten, bl.a. ved å «klippe på lyd».

3. I begynnelsen av lydfilmens historie var den tekniske gjengivelsen av talen utformet etter mønster av telefon-teknologien (se f.eks. Altman 1992:121f). Med andre ord fokuserte man på gjengivelse av et svært begrenset frekvensområde, konsentrert om det høyeste spekteret av talen (det området som vi påvirker med diskant-knappen på stereoanlegget). Dette frekvensområdet var viktig for forståelsen av talelydene. En realistisk gjengivelse av stemmen var derimot sekundært. I dag er talen gjengitt i et bredere frekvensområde.

Litteratur
Allen, Robert C. & D. Gomery 1985: Film History. Theory and Practice. Knopf, New York.

Altman, Rick (Charles F.) 1985:»The Technology of the voice» (Part I), i Iris vol. 3, Paris.
1992 (ed.): Sound Theory / Sound Practice. Routledge, London.

Belton, John 1992: «1950s Magnetic Sound: The Frozen Revolution», in Altman, Rick (ed.): Sound Theory / Sound Practice. Routledge, London.

Bordwell, David 1989: «A Case for Cognitivism», in Iris no. 9, Paris.

Braaten, Lars Thomas & Jens Toft 1989: «Bilde og lyd i film», in Edda - Hefte 1.

Branigan, Edward 1992: Narrative Comprehension and Film. Routledge, New York.

Bregman, Albert S. 1990: Auditory Scene Analysis. The Perceptual Organization of Sound. MIT Press, Cambridge, Massachusetts.

Chion, Michel 1994: Audio-Vision. Sound on Screen. Columbia University Press, New York.

Durovicova, Natasa 1992: «Translating America: The Hollywood Multilinguals 1929-1933», in Altman, Rick (ed.): Sound Theory / Sound Practice. Routledge, London.

Gorbman, Claudia 1987: Unheard Melodies. Narrative Film Music. Indiana University Press, Bloomington.

Haddal, Odd 1989: «Tekstingpraksis i Norge», i Nordisk TV-teksting. Nordisk Språksekretariat, Rapport 12.

Handzo, Stephen 1985: «A Narrative Glossary of Film Sound Technology», in Weis, E. & J. Belton (eds.): Film Sound: Theory and Practice. Columbia University Press, New York.

Kozloff, Sarah 1988: Invisible storytellers: Voice-Over Narration in American Fiction Film. University of California Press, Berkley. Larsen, Peter 1988: «Betydningsstrømme: Musik og moderne billedfiktioner», i Studia Musicologica Norvegica, no. 14.

Lastra, James 1992: «Reading, Writing, and Representing Sound», in Altman, Rick (ed.): Sound Theory / Sound Practice. Routledge, London.

Meyers, Randall 1994: Filmmusic. Fundamentals of the Language. ad Notam Gyldendal, Oslo.

Maasø, Arnt 1992: U-lyd. En produksjonsanalyse av ungdomsredaksjonen i NRK fjernsynet. Semesteroppgave, Institutt for medier og kommunikasjon, Universitetet i Oslo.
1995: Lyden av levende bilder. Rapport nr. 14, Institutt for medier og kommunikasjon, Universitetet i Oslo.

Schreger, Charles 1985: «Altman, Dolby, and The Second Sound Revolution», in Weis, E. & J. Belton (eds.): Film Sound: Theory and Practice. Columbia University Press, New York.

Weis, Elisabeth & John Belton (eds.) 1985: Film Sound: Theory and Practice. Columbia University Press, New York.

Williams, Alan 1985: «Godards Use of Sound», in Weis, E. & J. Belton (eds.): Film Sound: Theory and Practice. Columbia University Press, New York.
1992: «Historical and Theoretical Issues in the Coming of Recorded Sound to the Cinema», in Altman, Rick (ed.): Sound Theory / Sound Practice. Routledge, London.

Norsk medietidsskrift, nr. 2/95. (1995)

Till Filmljud - gestaltande ljudläggning

To FilmSound.org

Besök Fototips.se