Forskningsbeskrivning
Residuala nÀtverk [4] (ResNets) möjliggör framgÄngsrik optimering av mycket djupa neurala nÀtverksarkitekturer med hundratals lager. Dess representationskraft har lett till förbÀttringar inom olika högpresterande datorseendeanvÀndningar, sÄsom klassificering, objektdetektion, segmentering, osv. I den banbrytande artikeln [5] observerades att strukturen hos ett residualt nÀtverk liknar Euler-diskretiseringen av en ordinÀr differentialekvation (ODE). Genom att parametrisera derivatan av den dolda tillstÄndet av ett neuralt nÀtverk gör NODEs det möjligt att definiera residualnÀtverk med kontinuerlig djup, dÀr noggrannhet under inferens kan utbytas mot hastighet. Det har vidare demonstrerats hur mÄnga av de nÀtverk som vanligtvis anvÀnds inom djupinlÀrning kan tolkas som olika diskretiseringsmetoder av differentialekvationer, men i det hÀr fallet parametriseras varje lager oberoende. NODEs kan ocksÄ stabiliseras ytterligare genom att injicera brus under trÀning för att öka robustheten mot brusstörningar och fientliga exempel.I vÄrt arbete [1,2,3] har det visats hur fristÄende NODEs kan anvÀndas isolerat frÄn konventionella nÀtverkslager, sÄ att det hela nÀtverket formuleras som en NODE. Fördelen med denna formulering Àr att de matematiska egenskaperna hos modellen gÀller, frÄn inmatningsdatapunkter till förutsÀgelser. Detta gör det möjligt att exempelvis analysera beteendet hos förutsÀgelser under olika störningar av datapunkter eller vikter, och möjliggör generell kÀnslighetsanalys av avbildningen. Men eftersom NODE endast beskrivs av fullt anslutna lager finns det begrÀnsningar nÀr det gÀller tillÀmplighet. Gruppen arbetar med flera naturliga förlÀngningar av den pÄbörjade forskningen, dÀr vi listar tvÄ av dem:
Vetenskapsaktiverade fristÄende NODEs för inversa och illa stÀllda ODEs, PDEs och variationsproblem
Vi utvecklar en ram för effektiv inkludering av vetenskapsbaserad kunskap i trÀningen av fristÄende NODEs som föreslÄs i [1,2] för att lösa vÀlstÀllda problem för ODEs och PDEs. Till skillnad frÄn PINNs [6] integrerar vi "fysiken" inte i förlustfunktionen utan i kÀrnan av de fristÄende NODEs. Detta beror pÄ det unika designen av fristÄende NODEs eftersom aktiveringsfunktionen Àr allmÀn och tÀcker en bred klass av funktioner. Dessutom kommer vÄr metod att tillÄta oss att anvÀnda (a) en mer allmÀn förlustfunktion som inte nödvÀndigtvis överensstÀmmer med PDE eller ODE som vi vill lösa och (b) problemet med kÀnslighetsanalys för att göra en robusthetsanalys. Denna uppstÀllning kommer att omfatta en bred mÀngd problem inom matematisk fysik och matematisk biologi, inklusive Navier-Stokes ekvationer, bevarandelagar, diffusionprocesser, advektion-diffusion-reaktionssystem och kinetiska ekvationer. Inom detta projekt behandlas följande forskningsutmaningar:
- Inkorporera "vetenskapen" i kÀrnan av fristÄende NODEs för att lösa
(i) VÀlstÀllda problem (direkta problem) för icke-linjÀra partiella differentialekvationer (PDEs) och ordinÀra differentialekvationer (ODEs).
(ii) Illa stÀllda och inversa problem för icke-linjÀra PDEs och ODEs (till exempel parametriseringsproblem) samt för variationsproblem. - Studera konvergens, stabilitet och noggrannhet hos "vetenskapsaktiverade" fristÄende NODEs-lösningar.
- Implementera "vetenskapsaktiverade" fristÄende NODEs bÄde isolerat och i kombination med traditionella djupinlÀrningsarkitekturer.
Konvolutionsneurala NODEs (CNODEs)
Konvolutionsneurala nÀtverk (CNN) Àr grundstenen inom djupinlÀrning för bildanalys. För data med rumslig eller tidsmÀssig struktur (bilder, ljud, osv.) Àr konvolutionsneurala nÀtverk (CNNs) [7] den faktiska standarden. Konvolutionslager lÀr sig och konvolutionskÀrnor fungerar som en allmÀn egenskapsutvinnare, vilket gör CNNs bÄde mer effektiva och lÀttare att optimera, samtidigt som de anvÀnder ett lÀgre antal trÀningsbara vikter. I kombination med maxpooling extraherar CNNs kompakta funktioner som representerar informationen som behövs för att lösa uppgiften. Dessa kan sedan utnyttjas av helt anslutna lager för att producera det önskade utdata frÄn ett nÀtverk. Att inkludera konvolutions- och poolingsoperationer i NODE-ramverket Àr en betydande forskningsutmaning, men representerar ocksÄ ett viktigt steg mot bredare tillÀmpliga NODEs. Detta öppnar Àven upp för intressanta forskningsriktningar, sÄsom konvolutionslager som Àr kontinuerliga bÄde i djup och rumslig utstrÀckning. MÄlen för detta projekt Àr:
- Derivera och analysera konvolutionsneurala NODEs (CNODEs) kontinuerliga inom tids- och rumsliga domÀner.
- Generalisera det icke-linjÀra konjugatgradientmetoden i [1,2] som en optimerare under CNODE-begrÀnsningar.
- Implementera CNODEs bÄde isolerat och i kombination med traditionella djupinlÀrningsarkitekturer.
- Derivera och analysera kÀnslighetsproblemet för CNODEs för att göra kvalitativa uttalanden om beteendet hos felpropagering i inlÀrningsprocessen under inflytande av brus.
Referenser
- George Baravdish, Gabriel Eilertsen, Rym Jaroudi, B Tomas Johansson, LukĂĄs MalĂœ, and Jonas Unger. Learning via nonlinear conjugate gradients and depth- varying neural odes. arXiv preprint arXiv:2202.05766, 2022.
- Rym Jaroudi, LukĂĄs MalĂœ, Gabriel Eilertsen, Tomas B Johansson, Jonas Unger, and George Baravdish. Standalone neural odes with sensitivity analysis. arXiv preprint arXiv:2205.13933, 2022.
- Rym Jaroudi. , Dissertation thesis, Linköping University 2023.
- Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770?778, 2016.
- Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, and David Duvenaud. Neural ordinary differential equations. In S. Bengio, H. M. Wallach, H. Larochelle, K. Grauman, and N. Cesa-Bianchi, editors, Proceedings of the 32nd International Conference on Neural Information Processing Systems, pages 6572?6583. Curran Associates Inc, Red Hook, NY, USA, 2018.
- Raissi M, Perdikaris P and Karniadakis G 2019 Physics-informed neural networks: a deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations J. Comput. Phys. 378 686?707
- Yann LeCun, Yoshua Bengio, et al. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 3361(10):1995, 1995.