Automattextning av (livesänd) video
Att texta videofilmer blir allt populärare och viktigare. Orsakerna är många, inte minst för att textad video innebär en fördel för alla. Man kan ju till exempel se filmen utan att ha ljudet på, och det som sägs blir sökbart på nätet. Dessutom är det i många fall lag på att videon måste vara Tillgänglig, bland annat genom att förses med textremsor.
Men, någon måste ju texta videon. Det är ett jobb som kan göras av professionella undertextare. Dom kostar pengar och behöver tid för att utföra arbetet. Man kanske kan göra jobbet själv? Eller till och med låta en maskin hjälpa till?
WestreamU var 2017 bland dom första i världen att använda allmänt tillgänglig automattextning skarpt på ett livesänt seminarium. Resultatet kan ses i SIS Youtubekanal. Hur vi gjorde finns beskrivet i vår samling case.
Självklart har utvecklingen gått vidare och vi har lärt oss en del. Här vill jag dela några erfarenheter och mina slutsatser.
Varför bryr vi oss?
Vi på WestreamU strävar alltid efter att göra kostnadseffektiva liveproduktioner, som dessutom är snygga, smart producerade och tillgängliga för så många som möjligt.
Just Tillgängligheten har aktualiserats i och med Lagen om tillgänglighet till offentlig service. Den lagen genomför EU:s så kallade webbtillgänglighetsdirektiv. Ett antal nya krav börjar gälla för nya webbplatser den 23 september 2019 och ett år senare för gamla. På Webbriktlinjer.se kan man läsa mer, inklusive det som rör textning, syntolkning och teckenspråkstolkning av all video. Ny reglering är också på väg från EU som ställer liknande krav på delar av den privata sektorn.
WestreamU har ända sedan starten aktivt arbetat med att använda och utveckla ny teknik för att göra tillgängliga livesändningar. Men, enligt min bedömning är det många bitar som saknas innan det blir ens i närheten lika enkelt som det är att livesända otillgängligt.
På den här sidan fokuserar jag på automatiserad Undertextning, dvs i princip textning av enbart det som sägs i videon. Dock kommer jag mot slutet kort nämna Textbeskrivningar, där annat som sker tas med (hundskall, beskrivningar av musik, ljudeffekter, etc).
Jag har också för avsikt att hålla den här sidan levande. Det vill säga lägga till och dra ifrån alltefter nya spännande grejor händer. För det lär det göra!
(På förekommen anledning vill jag påpeka att det är med flit jag ibland skriver automagisk, för det är det det är).
ek. dr. Richard Gatarski
Stockholm den 11 september 2019
senaste uppdatering 2019-09-12
Texta live är en rejäl utmaning
Man behöver inte vara raketforskare för att förstå det svåra med att i realtid skriva ned det som sägs. Förutom träning, träning och åter träning finns det sedan länge flera hjälpmedel, alltifrån speciella tangentbord och kortkommandon till respeaking.
Respeaking, som används i många länder, innebär att textaren med sin röst tränat upp en speciell taligenkänningsprogramvara. Textaren läser sedan upp det som sägs och korrigerar samtidigt så många misstag som möjligt. Ibland jobbar man parvis, en respeakar och en korrigerar.
För det svenska språket är respeaking inte möjligt eftersom vi saknar en svensk språkdatabas. SVT labbar dock sedan några år med en prototyp som har begränsat ordval.
I stället använder vi oss av skrivtolkar/direkttextare. Dom jobbar som regel parvis och avlöser varandra runt fyra gånger i timmen. Resultatet blir ofta helt godtagbart, men naturligtvis inte lika bra som om man gör en bra textning efteråt.
Att direkttexta en livesändning kräver förutom textare dessutom extra teknik och planeringstid. Om man vill ha stängd undertextning, dvs att tittaren skall kunna slå på/av texten, så kräver det speciella tjänster för videodistributionen.
Kort sagt, att texta live är både dyrare och svårare. Det är förmodligen ett av skälen till att offentliga verksamheter får livesända utan text även när Webbtillgänglighetsdirektivet slagit igenom. I så fall har dom två veckor på sig att förse filmerna med text, alternativt ta bort dom från webben.
Det finns en hel del skrivtolkar och direkttextare i landet. Men utbudet lär inte räcka ens om bara en bråkdel av livesändningarna från offentliga verksamheter skall livetextas. Många av skrivtolkarna jobbar dessutom som undertextare av redan inspelade videofilmer. Även det behovet drivs på av Webbtillgänglighetsdirektivet.
Det går naturligtvis att på egen hand lära sig skriva fort. Men professionerna innehåller så mycket mer. Alltifrån mycket god kännedom i svenska till människors olika behov och undertextningspraxis.
En skrivtolk bör känna till att hörselskadade föredrar ord för ord, medan döva och fullt hörande hellre läser kompletta och korrekta meningar. En undertextare måste ta hänsyn till läshastighet och mycket mer.
Nästa vecka startar Södertörns Folkhögskola årets enda utbildning av skrivtolkar. Det är 14 deltagare i kullen. Ökad efterfrågan och ungefär samma utbud – priserna lär alltså gå upp.
I dag kostar skrivtolkar minst 2×700 kr/h och undertextare tar minst 70-80 kr/videominut. Så även om utbudet förhoppnings ökar, pådrivet av ett ökat behov, så ser det knepigt ut i nuläget.
Textningen kanske går att lösa på annat sätt…
Utvecklingen av automattextning
Jag har i mån av tid följt utvecklingen inom AI-baserade system för automatiserad transkribering och textning. Under dom senaste åren har det kommit allt fler lösningar som använder taligenkänning för att texta filmer och ljudinspelnigar.
Youtube var tidigt ute med att inledningsvis erbjuda automattextning av uppladdade filmer. Dock fungerar det än så länge inte för det svenska språket. Vissa kanaler med många prenumeranter kan använda automatisk livetextning på engelska (mer om Youtubes automattextning). Google erbjuder också Cloud Speech to Text API, som stödjer många språk inklusive svenska.
Andra stora aktörer som IBM och Microsoft, men även mindre startups, utvecklar liknande lösningar. Det gemensamma är att dom använder avancerad AI-teknik.
För att öka träffsäkerheten blir det allt vanligare med funktioner för att i förväg mata in ord och begrepp som kan vara extra svårtolkade.
I en del fall arbetar textningsmaskinerna dessutom i realtid. Så rent teoretiskt fungerar dom även för livesändningar.
Få fel, fast farliga
Vi och våra uppdragsgivare var inledningsvis entusiastiska, automattextning verkade grymt bra. Nåja, en del småfel blir det ju men automagiskt är ju bättre än inget, tänkte vi. Fast ganska fort blev jag tveksam.
Dom som utvecklar tekniken brukar prata om en träffsäkerhet på 80-90 procent. Det låter ju bra. Men framförallt märkte jag att det som blir fel är ofta det viktiga. Det vill säga sådant som namn, centrala begrepp, komplicerade sammanhang, etc.
Ibland kan ett litet fel få stora konsekvenser. Som 2017 när en direkttextare på SVT gjorde en liten miss under en intervju av en partiledare. En annan politiker trodde att partiledaren sagt det som stog i textremsan och gjorde ett kritiskt utspel som fick stor uppmärksamhet.
Jag valde då att tills vidare inte rekommendera automattextning under den typ av liveproduktioner som vi gör. Samtidigt vill jag påpeka att allt fler använder automattextning live i många sammanhang där dom märker att det är bättre än ingenting. Speciellt gäller det tillfällen där det inte finns pengar för textning.
Jag tycker mig också se att vissa ämnesområden med ett enkelt standardiserat tal (tex en predikan) och de större språken (som engelska och spanska) ger bättre resultat. Och många med hörselnedsättning, inte minst de döva, är oerhört tacksamma över att få någon slags undertext.
Okej, live automattextning kanske inte duger ännu. Men det borde ju vara hyfsat bra för att texta inspelningarna efteråt. Det vill säga låta maskinen göra grundarbetet och sedan rätta misstagen. Det ska vi titta närmare på.
Verktygen börjar bli många
Självklart vill vi testa olika lösningar för automattextning. Ett hinder är att många av verktygen är relativt kostsamma och/eller erbjuds enbart som en del av ett större tjänstepaket. Som till exempel de från Speechmatics, PerVoice, Telestream och Screen9. Men några har varit inom rimligt räckhåll för oss.
Webcaptioner.com är det enda vi hittills kunnat använda för live automattextning. Den, liksom Textamig.se, bygger på Google’s Cloud speech to text. Båda är gratis, just nu i alla fall.
I maj 2019 bloggade Micke Kring om Automatiska undertexter till film, där han entusiastiskt beskriver hur han använder HappyScribe.co.
Jag vet inte vilken AI-motor Happy Scribe använder för transkriberingen. Men det är flera saker som gör att jag tycker tjänsten är extra intressant och väl värd kostnaden (runt 9 Euro per videotimme). Bland annat kan man enkelt redigera den transkriberade texten och sedan få ut textremsor i Subrip-format (srt).
In i labbet med Happy Scribe
Det första jag gjorde med Happy Scribe var att texta en 14 minuter lång film från en livesändning vi tidigare gjort åt Universitetskanslersämbetet. Automattranskriberingen gick fort, men sen tog det 50 minuter för mig att redigera den. Jag citerar mina anteckningar:
“Massor av särskrivningar. En hel del ordrepetitioner. Facktermer som blev fel, ex LCHF istf SUHF. Som vanligt när det gäller automatiserad textning är det ofta fackuttryck och egennamn som blir felaktiga. Det är rätt allvarligt, eftersom man lugnt kan räkna med att det är centralt innehåll i det som sägs.”
Därutöver lade jag rätt mycket tid på att göra om transkriberingen till undertext med tidkoder. Det tog extra lång tid eftersom jag missat att man i Happy Scribe måste synka om allt efter redigeringen. Tyvärr har jag inte antecknat tidsåtgången så noga, men närmare två timmar handlade det nog om.
Min slutsats då blev: enkelt men tar tid och måste utvärderas mer.
Själv kan bli bättre, men…
Att texta automagiskt innebär som regel fyra moment:
- Transkribering
- Redigering
- Synkronisering
- Publicering
Kvaliteten på den automatiska transkriberingen är naturligtvis avgörande för hur mycket tid som krävs för redigering och synkronisering. Något som därmed påverkar slutkostnaden kraftigt.
Hur man sedan fixar färdiga undertexter beror på kunskap, färdighet, tillgång till verktyg och metodval. Med Textamig.se kan man till exempel direkt få ut textremsor och sedan redigera och synka dom med Youtube eller Amara.
Mitt nästa steg med Happy Scribe blev därför att labba med olika metoder. Jag valde fyra korta filmer av och med mig. Sammanfattningsvis tog det mig alltifrån 20 minuter för 1 minuts film (20 x videotiden) till 10 minuter för knappt 2 minuters film (5 x videotiden).
Om vi räknar med en arbetskostnad på 400 kr/h så landar alltså slutkostnaden på minst 33 kronor per videominut. Men, i det här fallet fick jag en transkribering utan speciellt många fel. Så var det inte med filmen från Universitetskanslersämbetet.
Dags att ge maskinen nåt saftigare att bita i.
Palaver om porrfilter
Under Almedalsveckan 2019 livesände vi ett panelsamtal om porrfilter. Panelen bestod av åtta personer som samtalade under en knapp timme. Efter lite bortklippning av några missar återstog 52 minuter.
Förutom det intressanta och komplicerade ämnet var en del av utmaningen för maskinen att alla i panel och publik en delade på en mikrofon i det blåsiga tältet.
Jag valde även denna gång att pröva lite olika metoder för att texta hela filmen med Happy Scribe som stöd. Det visade sig att panelens jurist innebar en extra utmaning. Troligtvis beroende både på vad hon sa och hur hon sa det.
Låt oss fortsätta genom att titta på vad tre olika automattextare levererade efter att ha lyssnat på ett 2,5 minuters långt klipp från filmen. Det är juristen Ängla Eklund som svarar på frågan: Finns det jämförbar lagstiftning i dag till det här som man föreslår?
Wordcaptioner.com
enda jag brukar i debatten jämföra med ju filter mot till exempel då barnpornografi Och den den extremt viktiga diskussioner och göra här det kring just barnpornografibrottet så finns det ingenting omfattande harmonisering det är så brottsligt innehåll som då filtreras bort och det gör mig ganska avancerade tekniker för att de åker också tvåstegsverifiering de andra i Sony Ericsson fysiska personer med kompetens som sitter och tittar på det här materialet
Textamig.se
Enda jag brukar i debatten jämföra med ju filter mot till exempel om barnpornografi Och den den extremt viktiga distinktioner och göra här Diab Kring just barnpornografibrottet offentliga till omfattande harmonisering det är alltså brottsligt Innehåll som då filtreras bort Och det gör mig ganska avancerade tekniken 82 stegs verifiering av de andra i serien fysiska personer med kompetens inom sitt Gå och titta på det här materialet
HappyScribe.co
Det brukar i debatten jämföra med de filter mot till exempel barnpornografi. Den extremt viktiga distinktionen att göra det är att kring just barnpornografibrott det finns en ganska omfattande harmonisering el brottsligt innehåll som då filtreras bort och det gör mig ganska avancerade. Tekniken är också två stegs så även om andelen fysiska personer med kompetens som sitter och tittar på materialet och då tar man.
Blir det begripligt?
Min ödmjuka bedömning är att det som Googles transkribering levererar just här är totalt obegripligt. Dessutom varierar texten lite mellan dom två tjänsterna Webcaptioner och Textamig. Skillnaderna kan beror på hur API-anropen utförs.
Happy Scribe ser vid en första anblick ut att skriva något hyfsat vettigt. Man kan också se skiljetecken, som “punkt”. Men jag ser två allvarliga problem. För det första krävs en hel del tankemöda för att läsa, något man inte hinner spendera tid på när videon rullar på. För det andra verkar det fattas en del.
Låt oss höra vad Ängla faktiskt säger genom att kika på Textamigs respektive Happy Scribes versioner av klippet, båda med öppen undertext. Detta för att du som har tillräckligt bra hörsel och syn skall kunna jämföra. Titta gärna en gång med ljud, och en gång utan.
Amatör versus Proffs
Uppenbarligen behöver transkriberingen redigeras. Med stoppuret i handen rättade jag själv alla 52 minuter i Happy Scribes redigeringsverktyg. Det tog mig 3,5 timmar, uppdelat på fyra pass. Sedan fick jag lägga en dryg timme till på att synka textremsorna. Med andra ord behövde jag mer än 5 gånger videotiden. Hur det blev kan ni se på Youtube via Nätkulturers Panelsamtal om porrfilter. Här är min anteckningar från arbetet (som avslöjar att jag är en amatör på detta):
Rätt ofta kontstig ordföljd. Jag är osäker på prepositioner de, dem, dom (dvs gör HS rätt?, korrar jag rätt).
Ordet “porr” ignoreras ofta, eller missförstås
Felstavade namn, tex “Engla Höglund” (rätt Ängla Eklund), “Berit Saxton” (Brit Stakston).
Maskinen fattar inte viktiga begrepp, tex innehåll och filter (innehållsfilter), “nätterna i all” (Netnanny), “Siv söks” (Safe search), , “professur” (på RFSU).
Samskriver väldigt ofta, tex “innehålls mot regering” (innehållsmoderering), “filter frågan” (filterfrågan), “sexualundervisning frågor”, (sexualundervisningsfrågor), “bild igenkänning” (bildigenkänning), “hundvalp ansikten” (hundvalpsansikten).
Änglas juridiska, och ganska rappa beskrivningar, blir mycket feltolkat.
Transkriberingen från en AI-motor är i princip ordagrann. Småord som “hm”, “sen”, “och”, etc kommer med. En professionell skrivtolk/undertextare ser som sagt till att städa i texten och anpassa den för läsaren.
För att få en jämförelse skickade jag klippet med juristen till Undertextning.nu och bad att få leverans inom 1 dygn. Dom tar 80 kr per påbörjad videominut och 40% påslag för snabbleverans, alltså 336 kr.
Richard Gatarski redigerat
Det brukar i debatten jämföras med filter mot till exempel barnpornografi. Den extremt viktiga distinktionen att göra här, är att kring just barnpornografibrottet finns en ganska omfattande harmonisering. Det är alltså brottsligt innehåll som då filtreras bort. Det görs med ganska avancerade tekniker. De är också en tvåstegs verifiering. Även om man använder AI, så är det fysiska personer med kompetens som sitter och tittar på materialet.
Undertextning.nu undertextat
I debatten brukar man jämföra med filter mot barnpornografi. Den extremt viktiga distinktionen att göra är att kring just barnpornografibrottet finns det en omfattande harmonisering. Det är brottsligt innehåll som filtreras bort. Det görs med avancerade tekniker, och det är tvåstegsverifiering: Utöver AI är det också fysiska personer med kompetens som tittar på materialet.
Ekonomiska aspekter
Jag är i grunden företagsekonom och för mig betyder ekonomi “läran om hushållande med begränsade resurser i ett tillstånd av knapphet”. Om man tycker det är billigare att göra själv så skall man ha räknat på det.
Om vi antar att det tar minst fem gånger videotiden för en amatör som jag att redigera en automattranskriberad video, och sätter ett (mycket lågt) timpris på mig om 600 kr, så innebär det minst 3 000 kronor per videotimme. Plus att kvaliteten blir därefter. (Vi kan nog vara överens om att Undertextning.nu gjorde ett bättre jobb).
Jag borde kanske först undertextat hela filmen utan automattranskribering för att uppskatta tidsbesparingen med Happy Scribe. Men dels har jag inte tid för det, dels skulle det påverkat redigeringen eftersom jag redan jobbat igenom texten.
Min kostnad och kvalitet kan vi jämföra med en professionell undertextare som tar 80 kr per videominut, alltså 4 800 kronor per videotimme. Då blir det mycket bra textning. Inte bara med ett bättre och mer snabbläst språk, utan också att textremsornas längder och tidskoder är anpassad till en normal läshastighet. Plus att proffsen har pejl på allmänna riktlinjer för undertextning.
Internationella erfarenheter
I juli deltog jag i Interstenos kongress 2019. Intersteno är “an evergreen worldwide community uniting all those using a full range of speed writing methods to quickly produce high quality texts”.
Flera av konferensens föredrag handlade om ASR (Automatic Speech Recognition) och Live Subtitling.
Ett i det här sammanhanget extra intressant föredrag var Captioning Software using Automatic Speech Recognition. Professor Tatsuya Kawahara vid Kyotos universitet berättade om hur de använt automattextning kompletterat med manuell redigering för att undertexta föreläsningar. I en studie fann de bland annat att även med en noggrannhet på 90% krävdes sedan i genomsnitt 4,4 gånger videotiden för att korrigera felen. Sambandet illustreras här på bilden (den gula texten är från konferensens livetextning).
Slutord
Min rekommendation är fortfarande att vara väldigt tveksam till att använda automatisk textning av livesändningar. Självklart finns det sammanhang där det kan fungera bra. Men man skall åtminstone fråga sig:
- hur stor risken är för allvarliga fel i texten?
- vad blir effekterna av sådana fel?
Om det är ekonomiskt vettigt att använda automagisk textning som förberedelse till manuell textning beror på många faktorer. Bland dom ingår tillgången till personal, deras kompentens, kvalitetsambition och hur fort textningen måste vara klar.
För Westreamus del del gentemot våra uppdragsgivare tycker jag att det är som regel värt att anlita professionella undertextare. Undantaget en del fall, till exempel för korta videoklipp, där det kan bli snabbare och billigare om man gör det själv och tar hjälp av en maskin.
Jag har på senare tid mött många skrivtolkar och undertextare som är alltifrån lätt oroade till att redan ha börjat använda automattextning själva. Dom tittar på hur deras jobb kan bli bättre och effektivare, snarare än ersatt.
Teknikutvecklingen går alltså vidare. Träffsäkerheten lär öka, men det dröjer nog ett bra tag till innan det blir mer än ordaggranna (verbatim) textningar. Och automatiska Textbeskrivningar, det vill säga att texten innehåller mer än det som sägs, lär ligga en bra bit bort i framtiden.
Integritet och sekretess
De filmer som behandlas, och de texter som genereras, lär innehålla såväl personppgifter som kanske sekretessbelagd information. En del tjänster, men inte alla, för automatisk transkribering/textning har stöd för att hantera detta. Något som den som använder AI-tekniken måste ha i åtanke.
Uppdateringar
2019-09-12
Kompletterade stycket om Youtubes automattextning med livefunktioner och länk till mer info.