AI inom media – ny forskning i Umeå
- november 6, 2020
- Allmänt
- Victoria Skeidsvoll
Johanna Björklund, medgrundare till IT-bolaget Codemill och forskare vid institutionen för datavetenskap på Umeå universitet får 4 miljoner av Vetenskapsrådet för att utveckla sin forskning inom avancerad maskininlärning.
– Projektet innehåller både praktiska experiment och teoretisk analys så vi kommer inte ha en tråkig minut. Förutsättningarna är dessutom ideala – vi har redan starka internationella samarbeten igång och ämnet ligger perfekt i tiden, säger Johanna Björklund.
Djupare analys av mediadata
Idag kan datorprogram tolka röster, ansikten och rörelser och sätta den extraherande informationen i ett sammanhang. Johanna Björklunds forskning handlar om att gå ytterligare ett steg.
– Vi utvecklar algoritmer för att representera innebörden i sammansatta mediaobjekt i ett format som passar sig för automatisk bearbetning, säger Johanna Björklund.
Inom forskningen öppnar detta upp för djupare former av maskininlärning inom en bredd av områden relaterade till media, bland annat indexering och sökning i mediabanker, automatisk summering av olika typer av innehåll och kunskapsextraktion.
– För industrin innebär det att vi kan automatisera traditionella arbetsflöden och i förlängningen skapa helt nya produkter och tjänster, säger Johanna Björklund.
Komplext område
Anslaget från Vetenskapsrådet betyder att Johanna får en miljon kronor per år fram till 2024. Hennes forskargrupp kan växa och även besöka internationella kollegor och få nya perspektiv.
– Problemen vi addresserar är ofta mer komplexa och mångbottnade än vi tror. Kombinationen av klassiska statistiska metoder och den nya tiden neurala nätverk har mycket att ge – jag hoppas bli ordentligt förvånad minst en gång i veckan, avslutar Johanna Björklund.
Semantisk parsning av multimodal data
Bryter vi ner projekttiteln ”semantisk parsning av multimodal data” så betyder ‘parsning’, att vi översätter data till format som är lättare att hantera algoritmiskt. ‘Semantisk’, att vi fångar aspekter som är kopplade till mening och inte bara yta och ‘multimodal’ att datan består av kombinationer av bid, ljud, video, etc.