Kursplan fastställd 2021-02-17 av programansvarig (eller motsvarande).
Kursöversikt
- Engelskt namnComputational techniques for large-scale data
- KurskodDAT470
- Omfattning7,5 Högskolepoäng
- ÄgareMPDSC
- UtbildningsnivåAvancerad nivå
- HuvudområdeDatateknik, Informationsteknik
- InstitutionDATA- OCH INFORMATIONSTEKNIK
- BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd
Kurstillfälle 1
- Undervisningsspråk Engelska
- Anmälningskod 87115
- Max antal deltagare100
- Blockschema
- Sökbar för utbytesstudenterNej
Poängfördelning
Modul | LP1 | LP2 | LP3 | LP4 | Sommar | Ej LP | Tentamensdatum |
---|---|---|---|---|---|---|---|
0121 Inlämningsuppgift 4,5 hp Betygsskala: UG | 4,5 hp | ||||||
0221 Tentamen 3 hp Betygsskala: TH | 3 hp |
|
I program
- MPALG - DATAVETENSKAP - ALGORITMER, PROGRAMSPRÅK OCH LOGIK, MASTERPROGRAM, Årskurs 1 (valbar)
- MPDSC - DATA SCIENCE OCH AI, MASTERPROGRAM, Årskurs 1 (obligatoriskt valbar)
Examinator
- Matti Karppa
- Universitetslektor, Data Science och AI, Data- och informationsteknik
Behörighet
Grundläggande behörighet för avancerad nivåSökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.
Särskild behörighet
Engelska 6Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.
Kursspecifika förkunskaper
För tillträde till kursen krävs att studenten har en examen på kandidatnivå inom något ämne, eller har minst 90 hp i datavetenskap, software engineering eller motsvarande. Specifikt krävs minst 15 hp avklarade kurser i programmering, varav minst 7.5 poäng i programmering python eller motsvarande. Därutöver krävs även att studenten har klarat en kurs i sannolikhetstiori eller statstik, exempelvis MVE051, TMS137 eller liknande.Den här kursen kan inte ingå i en examen som innehåller DAT345 eller DAT346. Den kan inte heller ingå i en examen som bygger på en annan examen där DAT345 eller DAT346 ingår.
Syfte
Framväxten av storskalig data har lett till utveckling av nya programmeringspardigmer, i synnerhet for parallella system vilket möjliggör beräkningar med storskalig data och redundanta kluster av commodity datorer. Kursen erbjuder en introdution inom olika programmeringsparadigmer, till exempel MapReduce och utökningar, vilka underlätter beräkningar med terabytes av data. Det demonstrerar också att det för en specifik uppgift kan finnas olika algoritmer och datastrukturer som erbjuder mycket effektiva alternativ.Lärandemål (efter fullgjord kurs ska studenten kunna)
Efter godkänd kurs ska studenten kunna:Kunskap och förståelse
- diskutera de viktigaste teknologiska aspekterna vid design och implementering avsystem för analys av storskaliga data,
- förklara skillnader mellan parallella programeringsmodeller
- beskriva datastrukturer och algoritmer för storskaliga data och deras använding
Färdigheter och förmåga
- implementera tillämpningar för att transformera och analysera storskaliga data med hjälp av olika parallella mjukvaruramverk
- kunna använda algoritmer och datastrukturer för beräkningar med storskaliga data
Värderingsförmåga och förhållningssätt
- Föreslå lämpliga beräkningsinfrastruktur och metoder för analys och diskutera deras fördelar och nackdelar
- diskutera fördelar och nackdelar av olika strategier för parallelisering
- kunna välja mellan olika algoritmer och metoder baserad på parallelisering i syfte med att accelerera beräkningsmässiga workloads
Innehåll
Kursens mål är att fördjupa studenternas kunskaper och färdigheter inom den tekniska sidan av data science, inklusive de relevanta datamodellerna, samt lämpliga mjukvaru- och hårdvarumiljöer. Kursen kommer att introducera aspekter av design och implementation av storskaliga data science-lösningar.Framför allt kommer kursen att innefatta:
- en överblick av datorarkitekturer, algoritmiska tillvägagångssätt, och högpresterande beräkningsinfrastrukturer, med ett fokus på de begränsningar som finns vid behandling av storskaliga data,
- en introduktion i relevanta ramverk för klusterberäkning med storskaliga data, -
- implementering av dataanalysverktyg på ett kluster med hjälp av Python och lämpliga mjukvaruramverk
- datastrukturer och algoritmer som exempelvis index structurer, som avsevärt kan accelerera beräkningar för storskaliga data
Organisation
Föreläsningar, datorlaborationer och övningar.Litteratur
Kurslitteratur kommer att publiceras senast 8 veckor innan kursstart.
Examination inklusive obligatoriska moment
Kursen examineras genom en skriftlig salstenta och genom obligatoriska skriftliga inlämningsuppgifter. Några av inlämningsuppgifterna utförs individuellt och andra utförs i grupper av 2-4 studenter. Det kommer att finnas icke-obligatoriska inlämningsuppgifter som ger bonuspoäng för den skriftliga tentan. Bonuspoängen gäller för de två tentorna och omtentorna som är schemalagda närmast efter kurstillfället där bonuspoängen förvärvades.Kursens examinator får examinera enstaka studenter på annat sätt än vad som anges ovan om särskilda skäl föreligger, till exempel om en student har ett beslut från Chalmers om pedagogiskt stöd på grund av funktionsnedsättning.