En semantisk beskrivning av människan i bild och video är ett av de fundamentala problemen inom datorseende med en lång rad applikationer.
Datorseende
Exempel på applikationer finns inom visuell övervakning, ansiktsigenkänning, hälsovård, sökmotorer för bild och video, taggning och inte minst för interaktionen mellan människa och maskin.
Människor har en enastående förmåga när det kommer till att upptäcka olika särdrag på en människa, som (1) ålder, kön, frisyr, klädstil (2) aktiviteter som ridning, klättring, löpning eller promenad liksom (3) ansiktsuttryck som ilska, skratt eller leende.
Vi utvecklar en helt ny lösning för djupinlärning för det utmanande problemet att semantiskt tolka en människa på bilder och videor.
Tonvikten läggs på att undersöka ett antal delproblem som exempelvis effektiv bild- och videobeskrivning, automatiskt inlärning från visuella modeller, lärande från text och visuella data liksom att få fram robusta metoder som fungerar med minimal övervakning.
Externa partner
Rao Muhammad Anwer
Ett urval av tre publikationer
- Bertil Grelsson, Michael Felsberg, Folke Isaksson (2016), , Journal of Field Robotics
- Kristoffer Öfjäll, Michael Felsberg, Andreas Robinson (2016), , Intelligent Vehicles Symposium (IV)
- Michael Felsberg (2018),