Kursplan för Statistik och maskininlärning i högre dimensioner

Kursplan fastställd 2021-02-26 av programansvarig (eller motsvarande).

Kursöversikt

  • Engelskt namnStatistics and machine learning in high dimensions
  • KurskodEEN100
  • Omfattning7,5 Högskolepoäng
  • ÄgareMPCOM
  • UtbildningsnivåAvancerad nivå
  • HuvudområdeElektroteknik, Informationsteknik, Matematik
  • InstitutionELEKTROTEKNIK
  • BetygsskalaUG - Godkänd, Underkänd

Kurstillfälle 1

  • Undervisningsspråk Engelska
  • Anmälningskod 13115
  • Max antal deltagare40
  • Blockschema
  • Sökbar för utbytesstudenterJa

Poängfördelning

0120 Muntlig tentamen 6 hp
Betygsskala: UG
6 hp
0220 Projekt 1,5 hp
Betygsskala: UG
1,5 hp

I program

Examinator

Gå till kurshemsidan (Öppnas i ny flik)

Behörighet

Grundläggande behörighet för avancerad nivå
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Särskild behörighet

Engelska 6
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Kursspecifika förkunskaper

Goda kunskaper inom sannolikhetslära och matematisk analys.

Syfte

Den fantastiska ökningen av mängd, storlek och betydelse av de data som samlas in i vetenskap och industri gör att studenter som är intresserade av maskininlärande och högdimensionell signalbehandling behöver kunna använda mer sofistikerad sannolikhetsteori än den som lärs ut i grundläggande kurser.

Kursen ger en introduktion till användning av högdimensionell statistik till att lösa problem med  mycket stort antal parametrar och mycket stora  stickprov. Den täcker de grundläggande metoderna för analys av stokastiska vektorer och stokastiska matriser, och speciellt koncentrationsolikheter och gränser för sannolikheter för extrema utfall. Den ger vidare exempel praktiska användningar av de sannolikhetsteoretiska verktygen, bl. a. för analys och förståelse av generaliseringsfel i statistiskt lärande och användning av glesa linjära modeller och av matrismodeller med rangbegränsningar.

Lärandemål (efter fullgjord kurs ska studenten kunna)

  • Kunna formulera grundläggande resultat om koncentrationsolikheter och om gränser för stora avvikelser
  • Kunna använda dessa för att ge garantier för hur väl man kan
    • använda data till att skatta kovariansmatriser
    • använda brusstörda linjära projektioner till att återfinna glesa linjära vektorer
    • skatta en matris av låg rang från kännedom av delar av dess element

Innehåll

  • Grundläggande verktyg från sannolikhetsteorin
    • Inledning: klassiska olikheter och gränsvärdessatser
    • Koncentrationsolikehter för summor av oberoende stokastiska variabler: Hoeffding, Chernoff, Bernstein, sub-Gaussiska and sub-exponentiella fördelningar
    • Högdimensionella stokastiska vektorer och stokastiska matriser
    • Koncentration utan oberoende
    • Likformig stora talens lag: Rademacherkomplexitet and VC dimension
  • Användning inom maskinlärande, statistik och signalbehandling
    • Skattning av kovariansmatriser
    • Beräkning av brusstörda glesa signaler
    • Principalkomponentanalys
    • Skattning av matriser men låg rang
    • Stickprovskomplexitet i teorin för statistiskt lärande

Organisation

C:a 16 föreläsningar, 8 problemlösningssessioner och ett projekt där verktygen från kursen används för att lösa en praktisk maskinlänandeuppgift

Litteratur

Kursen kommer delvis att bygga på följande böcker:
  • R. Vershynin, High-dimensional probability: an introduction with applications in data science. Cambridge Univ. Press, 2019. Available: Online
  • M. J. Wainwright, High-dimensional statistics: a nonasymptotic viewpoint. Cambridge, U.K.: Cambridge Univ. Press, 2019.

Examination inklusive obligatoriska moment

Projekt, muntlig examination (Betygsskala: underkänd eller godkänd)

Kursens examinator får examinera enstaka studenter på annat sätt än vad som anges ovan om särskilda skäl föreligger, till exempel om en student har ett beslut från Chalmers om pedagogiskt stöd på grund av funktionsnedsättning.