Kursplan för Beräkningsmetoder för storskaliga data

Kursplan fastställd 2021-02-17 av programansvarig (eller motsvarande).

Kursöversikt

  • Engelskt namnComputational techniques for large-scale data
  • KurskodDAT470
  • Omfattning7,5 Högskolepoäng
  • ÄgareMPDSC
  • UtbildningsnivåAvancerad nivå
  • HuvudområdeDatateknik, Informationsteknik
  • InstitutionDATA- OCH INFORMATIONSTEKNIK
  • BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd

Kurstillfälle 1

  • Undervisningsspråk Engelska
  • Anmälningskod 87115
  • Max antal deltagare100
  • Blockschema
  • Sökbar för utbytesstudenterNej

Poängfördelning

0121 Inlämningsuppgift 4,5 hp
Betygsskala: UG
0 hp0 hp0 hp4,5 hp0 hp0 hp
0221 Tentamen 3 hp
Betygsskala: TH
0 hp0 hp0 hp3 hp0 hp0 hp
  • 31 Maj 2024 em J
  • 06 Okt 2023 fm J
  • 22 Aug 2024 em J

I program

Examinator

Gå till kurshemsidan (Öppnas i ny flik)

Behörighet

Grundläggande behörighet för avancerad nivå
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Särskild behörighet

Engelska 6
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Kursspecifika förkunskaper

För tillträde till kursen krävs att studenten har en examen på kandidatnivå inom något ämne, eller har minst 90 hp i datavetenskap, software engineering eller motsvarande. Specifikt krävs minst 15 hp avklarade kurser i programmering, varav minst 7.5 poäng i programmering python eller motsvarande. Därutöver krävs även att studenten har klarat en kurs i sannolikhetstiori eller statstik, exempelvis MVE051, TMS137 eller liknande.

Den här kursen kan inte ingå i en examen som innehåller DAT345 eller DAT346. Den kan inte heller ingå i en examen som bygger på en annan examen där DAT345 eller DAT346 ingår.

Syfte

Framväxten av storskalig data har lett till utveckling av nya programmeringspardigmer, i synnerhet for parallella system vilket möjliggör beräkningar med storskalig data och redundanta kluster av commodity datorer. Kursen erbjuder en introdution inom olika programmeringsparadigmer, till exempel MapReduce och utökningar, vilka underlätter beräkningar med terabytes av data. Det demonstrerar också att det för en specifik uppgift kan finnas olika algoritmer och datastrukturer som erbjuder mycket effektiva alternativ.                    

Lärandemål (efter fullgjord kurs ska studenten kunna)

Efter godkänd kurs ska studenten kunna:

Kunskap och förståelse
  • diskutera de viktigaste teknologiska aspekterna vid design och implementering avsystem för analys av storskaliga data,           
  • förklara skillnader mellan parallella programeringsmodeller
  • beskriva datastrukturer och algoritmer för storskaliga data och deras använding

Färdigheter och förmåga
  • implementera tillämpningar för att transformera och analysera storskaliga data med hjälp av olika parallella mjukvaruramverk                 
  • kunna använda algoritmer och datastrukturer för beräkningar med storskaliga data
 
Värderingsförmåga och förhållningssätt
  • Föreslå lämpliga beräkningsinfrastruktur och metoder för analys och diskutera deras fördelar och nackdelar           
  • diskutera fördelar och nackdelar av olika strategier för parallelisering                  
  • kunna välja mellan olika algoritmer och metoder baserad på parallelisering i syfte med att accelerera beräkningsmässiga workloads

Innehåll

Kursens mål är att fördjupa studenternas kunskaper och färdigheter inom den tekniska sidan av data science, inklusive de relevanta datamodellerna, samt lämpliga mjukvaru- och hårdvarumiljöer. Kursen kommer att introducera aspekter av design och implementation av storskaliga data science-lösningar. 

Framför allt kommer kursen att innefatta:
  • en överblick av datorarkitekturer, algoritmiska tillvägagångssätt, och högpresterande beräkningsinfrastrukturer, med ett fokus på de begränsningar som finns vid behandling av storskaliga data,
  • en introduktion i relevanta ramverk för klusterberäkning med storskaliga data, -
  • implementering av dataanalysverktyg på ett kluster med hjälp av Python och lämpliga mjukvaruramverk
  • datastrukturer och algoritmer som exempelvis index structurer, som avsevärt kan accelerera beräkningar för storskaliga data

Organisation

Föreläsningar, datorlaborationer och övningar.

Litteratur

Kurslitteratur kommer att publiceras senast 8 veckor innan kursstart. 

Examination inklusive obligatoriska moment

Kursen examineras genom en skriftlig salstenta och genom obligatoriska skriftliga inlämningsuppgifter. Några av inlämningsuppgifterna utförs individuellt och andra utförs i grupper av 2-4 studenter. Det kommer att finnas icke-obligatoriska inlämningsuppgifter som ger bonuspoäng för den skriftliga tentan. Bonuspoängen gäller för de två tentorna och omtentorna som är schemalagda närmast efter kurstillfället där bonuspoängen förvärvades.

Kursens examinator får examinera enstaka studenter på annat sätt än vad som anges ovan om särskilda skäl föreligger, till exempel om en student har ett beslut från Chalmers om pedagogiskt stöd på grund av funktionsnedsättning.