Kursplan för Statistik för stora datamängder

Kursplan fastställd 2020-02-05 av programansvarig (eller motsvarande).

Kursöversikt

  • Engelskt namnStatistical learning for big data
  • KurskodMVE441
  • Omfattning7,5 Högskolepoäng
  • ÄgareMPENM
  • UtbildningsnivåAvancerad nivå
  • HuvudområdeMatematik
  • InstitutionMATEMATISKA VETENSKAPER
  • BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd

Kurstillfälle 1

  • Undervisningsspråk Engelska
  • Anmälningskod 20150
  • Sökbar för utbytesstudenterJa

Poängfördelning

0120 Projekt 1,5 hp
Betygsskala: UG
1,5 hp
0220 Hemtentamen 6 hp
Betygsskala: TH
6 hp

I program

Examinator

Gå till kurshemsidan (Öppnas i ny flik)

Behörighet

Grundläggande behörighet för avancerad nivå
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Särskild behörighet

Engelska 6
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Kursspecifika förkunskaper

En grundläggande kurs i statistisk slutledning och MVE190 Linjära Statistiska Modeller. Studenter kan också kontakta kursläraren för tillstånd att ta kursen.

Syfte

Kursen skall ge förståelse för och övning i tekniker för statistisk analys av stora datamängder.

Lärandemål (efter fullgjord kurs ska studenten kunna)

  • visa förståelse för centrala begrepp och ideer rörande klassifikation, klustering och dimensionsreducering
  • lösa högdimensionella dataanalys-övningar och tolka resultaten av sådana analyser

Innehåll

  • Överblick över högdimensionell dataanalys
  • Klassifikation: Bayes regel, diskriminantanalys-metoder, närmaste granne klassifikator, klassifikations- och regressions-träd. 
  • Kostfunktioner, greedy searches, gradient descent, korsvalidering.
  • Logistisk regression
  • Regulariseringsmetoder. Gles logistisk regression, gles diskriminantanalys.
  • Ensemble-metoder: bagging, random projections, random forests.
  • Klustering: k-means, hierarkisk klustering, modell-baserad klutering, spektrala metoder.
  • Dimensionsreduktion: PCA, kanonisk korrelation, multi-dimensional scaling.
  • Speciella teman (urval av följande): nätverk och grafiska modeller, gles kovariansestimering, klustering av nätverk och community detection, nevrala nätverk, matriskomplettering, collaborative filtering.
  • Stor-skala lärning: stochastic searches, batch-metoder, online learning.

Organisation

Föreläsningar, diskussioner och läsuppgifter.

Litteratur

Meddelas senare.

Examination inklusive obligatoriska moment

Muntlig och/eller skriftlig examen.