Strukturerad maskininlärning

Läsår

Kursplan fastställd 2025-02-03 av programansvarig (eller motsvarande).

Kursöversikt

Engelskt namnStructured machine learning
KurskodDAT625
Omfattning7,5 Högskolepoäng
ÄgareMPDSC
UtbildningsnivåAvancerad nivå
HuvudområdeDatateknik, Informationsteknik
InstitutionDATA- OCH INFORMATIONSTEKNIK
BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd

Kurstillfälle 1

Undervisningsspråk Engelska
Anmälningskod 87132
Max antal deltagare25 (minst 10% av platserna reserveras för utbytesstudenter)
Min. antal deltagare5
Sökbar för utbytesstudenterJa

Poängfördelning

Modul	LP1	LP2	LP3	LP4	Sommar	Ej LP	Tentamensdatum
0124 Inlämningsuppgift 7,5 hp Betygsskala: TH	7,5 hp

I program

Examinator

Simon Olsson
Docent, Data Science och AI, Data- och informationsteknik
Kontakt
- simonols@chalmers.se
- Gå till personsida

Gå till kurshemsidan

Behörighet

Grundläggande behörighet för avancerad nivå
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Särskild behörighet

Engelska 6
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Kursspecifika förkunskaper

Erfarenhet av Python-programmering är ett krav, tidigare erfarenhet av arbete med ett modernt maskininlärningsbibliotek rekommenderas starkt.

Kunskap motsvarande minst tre av följande kursers innehåll:
Linjär algebra (7,5 hp), numerisk matematik eller vetenskaplig beräkning (7,5 hp), envariabelanalys (7,5 hp), eller statistisk mekanik/termodynamik (7,5 hp).

En kurs i statistiska beräkningar eller matematisk statistik (7,5 hp) och en kurs i maskininlärning (7,5 hp).

Det rekommenderas att kursen läses under årskurs två i masterprogrammet.

Syfte

Kursens syfte är att göra studenterna bekanta med användningen av datastrukturer och datagenereringsprocesser, samt hur denna information kan användas för att vägleda utformningen och träningen av maskininlärningsarkitekturer.

Kursen fokuserar på att skapa en stark förståelse för underliggande begrepp och deras tillämpning i en praktisk miljö. Särskild tonvikt kommer att läggas vid naturvetenskapliga tillämpningar.

Lärandemål (efter fullgjord kurs ska studenten kunna)

Efter kursen förväntas studenten kunna:

Kunskap och förståelse

Definiera kärnbegrepp som geometriska prior, ekvivarians och probabilistiska flödesgenerativa modeller.
Identifiera viktiga strukturella egenskaper (t.ex. symmetrier, invarianter) i data och deras domäner.
Förklara hur arkitekturer för geometrisk djupinlärning (GDL), t.ex. grafneurala nätverk (GNN), kodar domänspecifik struktur.
Sammanfatta de matematiska principerna bakom probabilistiska flödesgenerativa modeller, såsom måtttransport och variabelbyten.
Tolka rollen för induktiva bias (t.ex. lokalitet, symmetri) i modellkonstruktion för vetenskapliga tillämpningar.

Färdigheter och förmågor

Implementera geometriska djupinlärningsarkitekturer (t.ex. GNN) med ramverk som PyTorch Geometric.
Implementera och simulera probabilistiska flödesgenerativa modeller (t.ex. diffusionsmodeller eller kontinuerliga normaliserande flöden) med hänsyn till vissa domänsymmetrier.
Jämföra kompromisser mellan ekvivarianta arkitekturer (t.ex. invarianta vs. ekvivarianta lager) utifrån expressivitet, beräkningskostnad och samplingskomplexitet.

Omdöme och tillvägagångssätt

Bedöma senaste vetenskapliga rapporter om maskininlärningsprojekt som utnyttjar strukturer i data eller datagenererande processer.
Föreslå ett mindre forskningsprojekt som bygger på eller tillämpar kursens teman.
Utvärdera mindre forskningsprojekt inom strukturerad maskininlärning med fokus på strukturer i data eller datagenererande processer.

Innehåll

Denna kurs kommer att utrusta studenterna med teoretiska grundläggande kunskaper och praktiska verktyg för att designa maskininlärningssystem som utnyttjar strukturella mönster som är inneboende i datadomäner, dataset och generativa processer. Kursen introducerar geometrisk djupinlärning (geometric deep learning) och probabilistiska flödesgenerativa modeller (t.ex. kontinuerliga normaliserande flöden och diffusionsmodeller), och genom praktiska övningar kommer studenterna att lära sig att bygga modeller som respekterar domänspecifika begränsningar, såsom invarians och ekvivarians under transformationer eller bevarandelagar.

Kursen broar rigorösa matematiska principer såsom geometriska prior, stokastiska differentialekvationer och symmetrimedvetna arkitekturer med praktisk implementering för verkliga utmaningar. Ett särskilt fokus ligger på tillämpningar inom naturvetenskap (t.ex. molekylär modellering), där strukturerad data och generativa processer är centrala för att lösa öppna problem.

Kursen kombinerar teoretiska föreläsningar med inlämningsuppgifter och täcker följande övergripande teman:
Geometrisk djupinlärning (GDL)

Vi kommer att visa hur många moderna djupinlärningsarkitekturer, inklusive Transformers, konvolutionella neurala nätverk och grafneurala nätverk, naturligt uppstår ur GDL-ramverket.
Nyckelbegrepp:

Inlärning i högdimensionella rum, samplingskomplexitet, geometriska prior, skalseparation, symmetri, invarians/ekvivarians, deformationsstabilitet.

Datagenererande processer och probabilistiska flödesgenerativa modeller

Vi diskuterar specifika överväganden kring datagenerering och datainsamling. Kursen ger en kort introduktion till generativa modeller i allmänhet och fokuserar mer specifikt på diffusionsmodeller och kontinuerliga normaliserande flöden.
Nyckelbegrepp:

Direkt/indirekt observation, oberoende/korrelerad data, medelvärdesbildning/aliasing, densitetsestimation, latent rum, måtttransport, push-forward, diffeomorfismer.

Tillämpningar

Kursen fokuserar på molekylära tillämpningar, då dessa utgör en naturlig plattform för att illustrera alla kursens koncept. Tre projekt kommer att täcka övervakad inlärning (klassificering, regression) och oövervakad inlärning (densitetsestimation). Kursen avslutas med en uppsatsskrivning där ett mindre forskningsprojekt föresluts baserat på kursens teman.

Anmärkning:
Det här är inte en kurs som fokuserar på en samling av färdiga modeller ("model-zoo") istället betonar kursen teoretisk och konceptuell förståelse och dess koppling till praktiska implikationer. Kursen använder sig i stor utsträckning av högdimensionell analys och linjär algebra. Den innehåller också en snabbkurs i abstrakt algebra (gruppteori och grupprepresentationsteori).

Organisation

Litteratur

Föreläsningsanteckningar och utdelat material. Kurslitteratur.

Examination inklusive obligatoriska moment

Inlämningar, hemuppgifter, kamratbedömning och rapporter.

Kursens examinator får examinera enstaka studenter på annat sätt än vad som anges ovan om särskilda skäl föreligger, till exempel om en student har ett beslut från Chalmers om riktat pedagogiskt stöd på grund av funktionsnedsättning.

Kursplan för Strukturerad maskininlärning

Kursöversikt

Kurstillfälle 1

Poängfördelning

I program

Examinator

Behörighet

Särskild behörighet

Kursspecifika förkunskaper

Syfte

Lärandemål (efter fullgjord kurs ska studenten kunna)

Innehåll

Organisation

Litteratur

Examination inklusive obligatoriska moment

Kursöversikt