Matematik för maskininlärning

Grafik som visar en stiliserad hj盲rna med en r枚d upplyst punkt

Matematik för maskininlärning (MML) är ett tvärvetenskapligt team bestående av forskare inom matematik, maskininlärning och datorseende. Genom gemensamma ansträngningar har de utvecklat nya formuleringar och toppmoderna metoder för residuala neurala nätverk genom att använda inlärning via neurala ordinära differentialekvationer med varierande djup (NODEs), se [1,2,3].

Den 枚vergripande visionen f枚r MML-gruppen 盲r: Forska och utveckla den matematiska grundvalen f枚r och implementeringarna av en ny ram f枚r effektiv inkludering av vetenskapsbaserad kunskap i tr盲ningen av NODEs med ett verktygssats f枚r k盲nslighetsanalys f枚r en bred m盲ngd problem inom matematiska vetenskaper som modelleras av ordin盲ra differentialekvationer (ODEs), partiella differentialekvationer (PDEs) och variationsproblem (VPs), f枚r att f枚rb盲ttra AI-forskningen inom datorgrafik, datorseende och matematisk onkologi.

Forskningsbeskrivning

Residuala n盲tverk [4] (ResNets) m枚jligg枚r framg氓ngsrik optimering av mycket djupa neurala n盲tverksarkitekturer med hundratals lager. Dess representationskraft har lett till f枚rb盲ttringar inom olika h枚gpresterande datorseendeanv盲ndningar, s氓som klassificering, objektdetektion, segmentering, osv. I den banbrytande artikeln [5] observerades att strukturen hos ett residualt n盲tverk liknar Euler-diskretiseringen av en ordin盲r differentialekvation (ODE). Genom att parametrisera derivatan av den dolda tillst氓ndet av ett neuralt n盲tverk g枚r NODEs det m枚jligt att definiera residualn盲tverk med kontinuerlig djup, d盲r noggrannhet under inferens kan utbytas mot hastighet. Det har vidare demonstrerats hur m氓nga av de n盲tverk som vanligtvis anv盲nds inom djupinl盲rning kan tolkas som olika diskretiseringsmetoder av differentialekvationer, men i det h盲r fallet parametriseras varje lager oberoende. NODEs kan ocks氓 stabiliseras ytterligare genom att injicera brus under tr盲ning f枚r att 枚ka robustheten mot brusst枚rningar och fientliga exempel.

I v氓rt arbete [1,2,3] har det visats hur frist氓ende NODEs kan anv盲ndas isolerat fr氓n konventionella n盲tverkslager, s氓 att det hela n盲tverket formuleras som en NODE. F枚rdelen med denna formulering 盲r att de matematiska egenskaperna hos modellen g盲ller, fr氓n inmatningsdatapunkter till f枚ruts盲gelser. Detta g枚r det m枚jligt att exempelvis analysera beteendet hos f枚ruts盲gelser under olika st枚rningar av datapunkter eller vikter, och m枚jligg枚r generell k盲nslighetsanalys av avbildningen. Men eftersom NODE endast beskrivs av fullt anslutna lager finns det begr盲nsningar n盲r det g盲ller till盲mplighet. Gruppen arbetar med flera naturliga f枚rl盲ngningar av den p氓b枚rjade forskningen, d盲r vi listar tv氓 av dem:

Vetenskapsaktiverade frist氓ende NODEs f枚r inversa och illa st盲llda ODEs, PDEs och variationsproblem

Vi utvecklar en ram f枚r effektiv inkludering av vetenskapsbaserad kunskap i tr盲ningen av frist氓ende NODEs som f枚resl氓s i [1,2] f枚r att l枚sa v盲lst盲llda problem f枚r ODEs och PDEs. Till skillnad fr氓n PINNs [6] integrerar vi "fysiken" inte i f枚rlustfunktionen utan i k盲rnan av de frist氓ende NODEs. Detta beror p氓 det unika designen av frist氓ende NODEs eftersom aktiveringsfunktionen 盲r allm盲n och t盲cker en bred klass av funktioner. Dessutom kommer v氓r metod att till氓ta oss att anv盲nda (a) en mer allm盲n f枚rlustfunktion som inte n枚dv盲ndigtvis 枚verensst盲mmer med PDE eller ODE som vi vill l枚sa och (b) problemet med k盲nslighetsanalys f枚r att g枚ra en robusthetsanalys. Denna uppst盲llning kommer att omfatta en bred m盲ngd problem inom matematisk fysik och matematisk biologi, inklusive Navier-Stokes ekvationer, bevarandelagar, diffusionprocesser, advektion-diffusion-reaktionssystem och kinetiska ekvationer. Inom detta projekt behandlas f枚ljande forskningsutmaningar:

Inkorporera "vetenskapen" i k盲rnan av frist氓ende NODEs f枚r att l枚sa
(i) V盲lst盲llda problem (direkta problem) f枚r icke-linj盲ra partiella differentialekvationer (PDEs) och ordin盲ra differentialekvationer (ODEs).
(ii) Illa st盲llda och inversa problem f枚r icke-linj盲ra PDEs och ODEs (till exempel parametriseringsproblem) samt f枚r variationsproblem.
Studera konvergens, stabilitet och noggrannhet hos "vetenskapsaktiverade" frist氓ende NODEs-l枚sningar.
Implementera "vetenskapsaktiverade" frist氓ende NODEs b氓de isolerat och i kombination med traditionella djupinl盲rningsarkitekturer.

Konvolutionsneurala NODEs (CNODEs)

Konvolutionsneurala n盲tverk (CNN) 盲r grundstenen inom djupinl盲rning f枚r bildanalys. F枚r data med rumslig eller tidsm盲ssig struktur (bilder, ljud, osv.) 盲r konvolutionsneurala n盲tverk (CNNs) [7] den faktiska standarden. Konvolutionslager l盲r sig och konvolutionsk盲rnor fungerar som en allm盲n egenskapsutvinnare, vilket g枚r CNNs b氓de mer effektiva och l盲ttare att optimera, samtidigt som de anv盲nder ett l盲gre antal tr盲ningsbara vikter. I kombination med maxpooling extraherar CNNs kompakta funktioner som representerar informationen som beh枚vs f枚r att l枚sa uppgiften. Dessa kan sedan utnyttjas av helt anslutna lager f枚r att producera det 枚nskade utdata fr氓n ett n盲tverk. Att inkludera konvolutions- och poolingsoperationer i NODE-ramverket 盲r en betydande forskningsutmaning, men representerar ocks氓 ett viktigt steg mot bredare till盲mpliga NODEs. Detta 枚ppnar 盲ven upp f枚r intressanta forskningsriktningar, s氓som konvolutionslager som 盲r kontinuerliga b氓de i djup och rumslig utstr盲ckning. M氓len f枚r detta projekt 盲r:

Derivera och analysera konvolutionsneurala NODEs (CNODEs) kontinuerliga inom tids- och rumsliga dom盲ner.
Generalisera det icke-linj盲ra konjugatgradientmetoden i [1,2] som en optimerare under CNODE-begr盲nsningar.
Implementera CNODEs b氓de isolerat och i kombination med traditionella djupinl盲rningsarkitekturer.
Derivera och analysera k盲nslighetsproblemet f枚r CNODEs f枚r att g枚ra kvalitativa uttalanden om beteendet hos felpropagering i inl盲rningsprocessen under inflytande av brus.

Referenser

George Baravdish, Gabriel Eilertsen, Rym Jaroudi, B Tomas Johansson, Luk谩s Mal媒, and Jonas Unger. Learning via nonlinear conjugate gradients and depth- varying neural odes. arXiv preprint arXiv:2202.05766, 2022.
Rym Jaroudi, Luk谩s Mal媒, Gabriel Eilertsen, Tomas B Johansson, Jonas Unger, and George Baravdish. Standalone neural odes with sensitivity analysis. arXiv preprint arXiv:2205.13933, 2022.
Rym Jaroudi. , Dissertation thesis, Link枚ping University 2023.
Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770?778, 2016.
Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, and David Duvenaud. Neural ordinary differential equations. In S. Bengio, H. M. Wallach, H. Larochelle, K. Grauman, and N. Cesa-Bianchi, editors, Proceedings of the 32nd International Conference on Neural Information Processing Systems, pages 6572?6583. Curran Associates Inc, Red Hook, NY, USA, 2018.
Raissi M, Perdikaris P and Karniadakis G 2019 Physics-informed neural networks: a deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations J. Comput. Phys. 378 686?707
Yann LeCun, Yoshua Bengio, et al. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 3361(10):1995, 1995.

Forskare

George Baravdish

Biträdande professor, Enhetschef

Jonas Unger

Professor

Gabriel Eilertsen

Universitetslektor, Docent

Lukás Malý

Universitetslektor

91视频