Kursplan fastställd 2025-02-03 av programansvarig (eller motsvarande).
Kursöversikt
- Engelskt namnStructured machine learning
- KurskodDAT625
- Omfattning7,5 Högskolepoäng
- ÄgareMPDSC
- UtbildningsnivåAvancerad nivå
- HuvudområdeDatateknik, Informationsteknik
- InstitutionDATA- OCH INFORMATIONSTEKNIK
- BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd
Kurstillfälle 1
- Undervisningsspråk Engelska
- Anmälningskod 87132
- Max antal deltagare25 (minst 10% av platserna reserveras för utbytesstudenter)
- Min. antal deltagare5
- Sökbar för utbytesstudenterJa
Poängfördelning
Modul | LP1 | LP2 | LP3 | LP4 | Sommar | Ej LP | Tentamensdatum |
---|---|---|---|---|---|---|---|
0124 Inlämningsuppgift 7,5 hp Betygsskala: TH | 7,5 hp |
I program
- MPCAS - Komplexa adaptiva system, Årskurs 2 (valbar)
- MPDSC - Data Science och AI, Årskurs 1 (obligatoriskt valbar)
- MPDSC - Data Science och AI, Årskurs 2 (valbar)
Examinator
- Simon Olsson
- Docent, Data Science och AI, Data- och informationsteknik
Behörighet
Grundläggande behörighet för avancerad nivåSökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.
Särskild behörighet
Engelska 6Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.
Kursspecifika förkunskaper
Erfarenhet av Python-programmering är ett krav, tidigare erfarenhet av arbete med ett modernt maskininlärningsbibliotek rekommenderas starkt.Kunskap motsvarande minst tre av följande kursers innehåll:
Linjär algebra (7,5 hp), numerisk matematik eller vetenskaplig beräkning (7,5 hp), envariabelanalys (7,5 hp), eller statistisk mekanik/termodynamik (7,5 hp).
En kurs i statistiska beräkningar eller matematisk statistik (7,5 hp) och en kurs i maskininlärning (7,5 hp).
Det rekommenderas att kursen läses under årskurs två i masterprogrammet.
Syfte
Kursens syfte är att göra studenterna bekanta med användningen av datastrukturer och datagenereringsprocesser, samt hur denna information kan användas för att vägleda utformningen och träningen av maskininlärningsarkitekturer.Lärandemål (efter fullgjord kurs ska studenten kunna)
Efter kursen förväntas studenten kunna:Kunskap och förståelse
Definiera kärnbegrepp som geometriska prior, ekvivarians och probabilistiska flödesgenerativa modeller.
Identifiera viktiga strukturella egenskaper (t.ex. symmetrier, invarianter) i data och deras domäner.
Förklara hur arkitekturer för geometrisk djupinlärning (GDL), t.ex. grafneurala nätverk (GNN), kodar domänspecifik struktur.
Sammanfatta de matematiska principerna bakom probabilistiska flödesgenerativa modeller, såsom måtttransport och variabelbyten.
Tolka rollen för induktiva bias (t.ex. lokalitet, symmetri) i modellkonstruktion för vetenskapliga tillämpningar.
Färdigheter och förmågor
Implementera geometriska djupinlärningsarkitekturer (t.ex. GNN) med ramverk som PyTorch Geometric.
Implementera och simulera probabilistiska flödesgenerativa modeller (t.ex. diffusionsmodeller eller kontinuerliga normaliserande flöden) med hänsyn till vissa domänsymmetrier.
Jämföra kompromisser mellan ekvivarianta arkitekturer (t.ex. invarianta vs. ekvivarianta lager) utifrån expressivitet, beräkningskostnad och samplingskomplexitet.
Bedöma senaste vetenskapliga rapporter om maskininlärningsprojekt som utnyttjar strukturer i data eller datagenererande processer.
Föreslå ett mindre forskningsprojekt som bygger på eller tillämpar kursens teman.
Utvärdera mindre forskningsprojekt inom strukturerad maskininlärning med fokus på strukturer i data eller datagenererande processer.
Innehåll
Denna kurs kommer att utrusta studenterna med teoretiska grundläggande kunskaper och praktiska verktyg för att designa maskininlärningssystem som utnyttjar strukturella mönster som är inneboende i datadomäner, dataset och generativa processer. Kursen introducerar geometrisk djupinlärning (geometric deep learning) och probabilistiska flödesgenerativa modeller (t.ex. kontinuerliga normaliserande flöden och diffusionsmodeller), och genom praktiska övningar kommer studenterna att lära sig att bygga modeller som respekterar domänspecifika begränsningar, såsom invarians och ekvivarians under transformationer eller bevarandelagar.Kursen broar rigorösa matematiska principer såsom geometriska prior, stokastiska differentialekvationer och symmetrimedvetna arkitekturer med praktisk implementering för verkliga utmaningar. Ett särskilt fokus ligger på tillämpningar inom naturvetenskap (t.ex. molekylär modellering), där strukturerad data och generativa processer är centrala för att lösa öppna problem.
Kursen kombinerar teoretiska föreläsningar med inlämningsuppgifter och täcker följande övergripande teman:
Geometrisk djupinlärning (GDL)
Vi kommer att visa hur många moderna djupinlärningsarkitekturer, inklusive Transformers, konvolutionella neurala nätverk och grafneurala nätverk, naturligt uppstår ur GDL-ramverket.
Nyckelbegrepp:
Inlärning i högdimensionella rum, samplingskomplexitet, geometriska prior, skalseparation, symmetri, invarians/ekvivarians, deformationsstabilitet.
Datagenererande processer och probabilistiska flödesgenerativa modeller
Vi diskuterar specifika överväganden kring datagenerering och datainsamling. Kursen ger en kort introduktion till generativa modeller i allmänhet och fokuserar mer specifikt på diffusionsmodeller och kontinuerliga normaliserande flöden.
Nyckelbegrepp:
Direkt/indirekt observation, oberoende/korrelerad data, medelvärdesbildning/aliasing, densitetsestimation, latent rum, måtttransport, push-forward, diffeomorfismer.
Tillämpningar
Kursen fokuserar på molekylära tillämpningar, då dessa utgör en naturlig plattform för att illustrera alla kursens koncept. Tre projekt kommer att täcka övervakad inlärning (klassificering, regression) och oövervakad inlärning (densitetsestimation). Kursen avslutas med en uppsatsskrivning där ett mindre forskningsprojekt föresluts baserat på kursens teman.
Anmärkning:
Det här är inte en kurs som fokuserar på en samling av färdiga modeller ("model-zoo") istället betonar kursen teoretisk och konceptuell förståelse och dess koppling till praktiska implikationer. Kursen använder sig i stor utsträckning av högdimensionell analys och linjär algebra. Den innehåller också en snabbkurs i abstrakt algebra (gruppteori och grupprepresentationsteori).
Organisation
Litteratur
Föreläsningsanteckningar och utdelat material. Kurslitteratur.Examination inklusive obligatoriska moment
Inlämningar, hemuppgifter, kamratbedömning och rapporter.Kursens examinator får examinera enstaka studenter på annat sätt än vad som anges ovan om särskilda skäl föreligger, till exempel om en student har ett beslut från Chalmers om riktat pedagogiskt stöd på grund av funktionsnedsättning.