Kursplanen innehåller ändringar
Se ändringarKursplan fastställd 2020-02-18 av programansvarig (eller motsvarande).
Kursöversikt
- Engelskt namnStatistics and machine learning in high dimensions
- KurskodEEN100
- Omfattning7,5 Högskolepoäng
- ÄgareMPCOM
- UtbildningsnivåAvancerad nivå
- HuvudområdeElektroteknik, Informationsteknik, Matematik
- InstitutionELEKTROTEKNIK
- BetygsskalaUG - Godkänd, Underkänd
Kurstillfälle 1
- Undervisningsspråk Engelska
- Anmälningskod 13121
- Max antal deltagare40
- Blockschema
- Sökbar för utbytesstudenterJa
Poängfördelning
Modul | LP1 | LP2 | LP3 | LP4 | Sommar | Ej LP | Tentamensdatum |
---|---|---|---|---|---|---|---|
0120 Muntlig tentamen 6 hp Betygsskala: UG | 6 hp | ||||||
0220 Projekt 1,5 hp Betygsskala: UG | 1,5 hp |
I program
Examinator
- Giuseppe Durisi
- Professor, Kommunikation, Antenner och Optiska Nätverk, Elektroteknik
Behörighet
Grundläggande behörighet för avancerad nivåSökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.
Särskild behörighet
Engelska 6Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.
Kursspecifika förkunskaper
Goda kunskaper inom sannolikhetslära och matematisk analys.Syfte
Den fantastiska ökningen av mängd, storlek och betydelse av de data som samlas in i vetenskap och industri gör att studenter som är intresserade av maskininlärande och högdimensionell signalbehandling behöver kunna använda mer sofistikerad sannolikhetsteori än den som lärs ut i grundläggande kurser.
Kursen ger en introduktion till användning av högdimensionell statistik till att lösa problem med mycket stort antal parametrar och mycket stora stickprov. Den täcker de grundläggande metoderna för analys av stokastiska vektorer och stokastiska matriser, och speciellt koncentrationsolikheter och gränser för sannolikheter för extrema utfall. Den ger vidare exempel praktiska användningar av de sannolikhetsteoretiska verktygen, bl. a. för analys och förståelse av generaliseringsfel i statistiskt lärande och användning av glesa linjära modeller och av matrismodeller med rangbegränsningar.
Lärandemål (efter fullgjord kurs ska studenten kunna)
- Kunna formulera grundläggande resultat om koncentrationsolikheter och om gränser för stora avvikelser
- Kunna använda dessa för att ge garantier för hur väl man kan
- använda data till att skatta kovariansmatriser
- använda brusstörda linjära projektioner till att återfinna glesa linjära vektorer
- skatta en matris av låg rang från kännedom av delar av dess element
Innehåll
- Grundläggande verktyg från sannolikhetsteorin
- Inledning: klassiska olikheter och gränsvärdessatser
- Koncentrationsolikehter för summor av oberoende stokastiska variabler: Hoeffding, Chernoff, Bernstein, sub-Gaussiska and sub-exponentiella fördelningar
- Högdimensionella stokastiska vektorer och stokastiska matriser
- Koncentration utan oberoende
- Likformig stora talens lag: Rademacherkomplexitet and VC dimension
- Användning inom maskinlärande, statistik och signalbehandling
- Skattning av kovariansmatriser
- Beräkning av brusstörda glesa signaler
- Principalkomponentanalys
- Skattning av matriser men låg rang
- Stickprovskomplexitet i teorin för statistiskt lärande
Organisation
C:a 16 föreläsningar, 8 problemlösningssessioner och ett projekt där verktygen från kursen används för att lösa en praktisk maskinlänandeuppgiftLitteratur
Kursen kommer delvis att bygga på följande böcker:- R. Vershynin, High-dimensional probability: an introduction with applications in data science. Cambridge Univ. Press, 2019. Available: Online
- M. J. Wainwright, High-dimensional statistics: a nonasymptotic viewpoint. Cambridge, U.K.: Cambridge Univ. Press, 2019.
Examination inklusive obligatoriska moment
Projekt, muntlig examination (Betygsskala: underkänd eller godkänd)Kursplanen innehåller ändringar
- Ändring gjord på huvudområde:
- 2023-06-30: Tillagd [Huvudområde Informationsteknik] tillagt av UBS/PA
- 2023-06-30: Tillagd [Huvudområde Informationsteknik] tillagt av UBS/PA