91ÊÓÆ”

Matematik för maskininlärning

Grafik som visar en stiliserad hjÀrna med en röd upplyst punkt

Matematik för maskininlärning (MML) är ett tvärvetenskapligt team bestående av forskare inom matematik, maskininlärning och datorseende. Genom gemensamma ansträngningar har de utvecklat nya formuleringar och toppmoderna metoder för residuala neurala nätverk genom att använda inlärning via neurala ordinära differentialekvationer med varierande djup (NODEs), se [1,2,3].

Den övergripande visionen för MML-gruppen Àr: Forska och utveckla den matematiska grundvalen för och implementeringarna av en ny ram för effektiv inkludering av vetenskapsbaserad kunskap i trÀningen av NODEs med ett verktygssats för kÀnslighetsanalys för en bred mÀngd problem inom matematiska vetenskaper som modelleras av ordinÀra differentialekvationer (ODEs), partiella differentialekvationer (PDEs) och variationsproblem (VPs), för att förbÀttra AI-forskningen inom datorgrafik, datorseende och matematisk onkologi.

Forskningsbeskrivning

Residuala nÀtverk [4] (ResNets) möjliggör framgÄngsrik optimering av mycket djupa neurala nÀtverksarkitekturer med hundratals lager. Dess representationskraft har lett till förbÀttringar inom olika högpresterande datorseendeanvÀndningar, sÄsom klassificering, objektdetektion, segmentering, osv. I den banbrytande artikeln [5] observerades att strukturen hos ett residualt nÀtverk liknar Euler-diskretiseringen av en ordinÀr differentialekvation (ODE). Genom att parametrisera derivatan av den dolda tillstÄndet av ett neuralt nÀtverk gör NODEs det möjligt att definiera residualnÀtverk med kontinuerlig djup, dÀr noggrannhet under inferens kan utbytas mot hastighet. Det har vidare demonstrerats hur mÄnga av de nÀtverk som vanligtvis anvÀnds inom djupinlÀrning kan tolkas som olika diskretiseringsmetoder av differentialekvationer, men i det hÀr fallet parametriseras varje lager oberoende. NODEs kan ocksÄ stabiliseras ytterligare genom att injicera brus under trÀning för att öka robustheten mot brusstörningar och fientliga exempel.

I vÄrt arbete [1,2,3] har det visats hur fristÄende NODEs kan anvÀndas isolerat frÄn konventionella nÀtverkslager, sÄ att det hela nÀtverket formuleras som en NODE. Fördelen med denna formulering Àr att de matematiska egenskaperna hos modellen gÀller, frÄn inmatningsdatapunkter till förutsÀgelser. Detta gör det möjligt att exempelvis analysera beteendet hos förutsÀgelser under olika störningar av datapunkter eller vikter, och möjliggör generell kÀnslighetsanalys av avbildningen. Men eftersom NODE endast beskrivs av fullt anslutna lager finns det begrÀnsningar nÀr det gÀller tillÀmplighet. Gruppen arbetar med flera naturliga förlÀngningar av den pÄbörjade forskningen, dÀr vi listar tvÄ av dem:

Vetenskapsaktiverade fristÄende NODEs för inversa och illa stÀllda ODEs, PDEs och variationsproblem

Vi utvecklar en ram för effektiv inkludering av vetenskapsbaserad kunskap i trÀningen av fristÄende NODEs som föreslÄs i [1,2] för att lösa vÀlstÀllda problem för ODEs och PDEs. Till skillnad frÄn PINNs [6] integrerar vi "fysiken" inte i förlustfunktionen utan i kÀrnan av de fristÄende NODEs. Detta beror pÄ det unika designen av fristÄende NODEs eftersom aktiveringsfunktionen Àr allmÀn och tÀcker en bred klass av funktioner. Dessutom kommer vÄr metod att tillÄta oss att anvÀnda (a) en mer allmÀn förlustfunktion som inte nödvÀndigtvis överensstÀmmer med PDE eller ODE som vi vill lösa och (b) problemet med kÀnslighetsanalys för att göra en robusthetsanalys. Denna uppstÀllning kommer att omfatta en bred mÀngd problem inom matematisk fysik och matematisk biologi, inklusive Navier-Stokes ekvationer, bevarandelagar, diffusionprocesser, advektion-diffusion-reaktionssystem och kinetiska ekvationer. Inom detta projekt behandlas följande forskningsutmaningar:

  • Inkorporera "vetenskapen" i kĂ€rnan av fristĂ„ende NODEs för att lösa
    (i) VÀlstÀllda problem (direkta problem) för icke-linjÀra partiella differentialekvationer (PDEs) och ordinÀra differentialekvationer (ODEs).
    (ii) Illa stÀllda och inversa problem för icke-linjÀra PDEs och ODEs (till exempel parametriseringsproblem) samt för variationsproblem.
  • Studera konvergens, stabilitet och noggrannhet hos "vetenskapsaktiverade" fristĂ„ende NODEs-lösningar.
  • Implementera "vetenskapsaktiverade" fristĂ„ende NODEs bĂ„de isolerat och i kombination med traditionella djupinlĂ€rningsarkitekturer.

Konvolutionsneurala NODEs (CNODEs)

Konvolutionsneurala nÀtverk (CNN) Àr grundstenen inom djupinlÀrning för bildanalys. För data med rumslig eller tidsmÀssig struktur (bilder, ljud, osv.) Àr konvolutionsneurala nÀtverk (CNNs) [7] den faktiska standarden. Konvolutionslager lÀr sig och konvolutionskÀrnor fungerar som en allmÀn egenskapsutvinnare, vilket gör CNNs bÄde mer effektiva och lÀttare att optimera, samtidigt som de anvÀnder ett lÀgre antal trÀningsbara vikter. I kombination med maxpooling extraherar CNNs kompakta funktioner som representerar informationen som behövs för att lösa uppgiften. Dessa kan sedan utnyttjas av helt anslutna lager för att producera det önskade utdata frÄn ett nÀtverk. Att inkludera konvolutions- och poolingsoperationer i NODE-ramverket Àr en betydande forskningsutmaning, men representerar ocksÄ ett viktigt steg mot bredare tillÀmpliga NODEs. Detta öppnar Àven upp för intressanta forskningsriktningar, sÄsom konvolutionslager som Àr kontinuerliga bÄde i djup och rumslig utstrÀckning. MÄlen för detta projekt Àr:

  • Derivera och analysera konvolutionsneurala NODEs (CNODEs) kontinuerliga inom tids- och rumsliga domĂ€ner.
  • Generalisera det icke-linjĂ€ra konjugatgradientmetoden i [1,2] som en optimerare under CNODE-begrĂ€nsningar.
  • Implementera CNODEs bĂ„de isolerat och i kombination med traditionella djupinlĂ€rningsarkitekturer.
  • Derivera och analysera kĂ€nslighetsproblemet för CNODEs för att göra kvalitativa uttalanden om beteendet hos felpropagering i inlĂ€rningsprocessen under inflytande av brus.

Referenser

  1. George Baravdish, Gabriel Eilertsen, Rym Jaroudi, B Tomas Johansson, LukĂĄs MalĂœ, and Jonas Unger. Learning via nonlinear conjugate gradients and depth- varying neural odes. arXiv preprint arXiv:2202.05766, 2022.
  2. Rym Jaroudi, LukĂĄs MalĂœ, Gabriel Eilertsen, Tomas B Johansson, Jonas Unger, and George Baravdish. Standalone neural odes with sensitivity analysis. arXiv preprint arXiv:2205.13933, 2022.
  3. Rym Jaroudi. , Dissertation thesis, Linköping University 2023.
  4. Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun. Deep residual learning for image recognition. In Proceedings of the IEEE conference on computer vision and pattern recognition, pages 770?778, 2016.
  5. Ricky T. Q. Chen, Yulia Rubanova, Jesse Bettencourt, and David Duvenaud. Neural ordinary differential equations. In S. Bengio, H. M. Wallach, H. Larochelle, K. Grauman, and N. Cesa-Bianchi, editors, Proceedings of the 32nd International Conference on Neural Information Processing Systems, pages 6572?6583. Curran Associates Inc, Red Hook, NY, USA, 2018.
  6. Raissi M, Perdikaris P and Karniadakis G 2019 Physics-informed neural networks: a deep learning framework for solving forward and inverse problems involving nonlinear partial differential equations J. Comput. Phys. 378 686?707
  7. Yann LeCun, Yoshua Bengio, et al. Convolutional networks for images, speech, and time series. The handbook of brain theory and neural networks, 3361(10):1995, 1995.

Forskare