Kursplanen innehåller ändringar
Se ändringarKursplan fastställd 2020-08-18 av programansvarig (eller motsvarande).
Kursöversikt
- Engelskt namnMachine learning for natural language processing
- KurskodDAT450
- Omfattning7,5 Högskolepoäng
- ÄgareMPDSC
- UtbildningsnivåAvancerad nivå
- HuvudområdeInformationsteknik
- InstitutionDATA- OCH INFORMATIONSTEKNIK
- BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd
Kurstillfälle 1
- Undervisningsspråk Engelska
- Anmälningskod 87120
- Max antal deltagare50
- Min. antal deltagare10
- Blockschema
- Sökbar för utbytesstudenterNej
Poängfördelning
Modul | LP1 | LP2 | LP3 | LP4 | Sommar | Ej LP | Tentamensdatum |
---|---|---|---|---|---|---|---|
0120 Inlämningsuppgift 7,5 hp Betygsskala: TH | 7,5 hp |
I program
- MPDSC - DATA SCIENCE OCH AI, MASTERPROGRAM, Årskurs 1 (obligatoriskt valbar)
- MPDSC - DATA SCIENCE OCH AI, MASTERPROGRAM, Årskurs 2 (valbar)
Examinator
- Richard Johansson
- Professor, Data Science och AI, Data- och informationsteknik
Behörighet
Grundläggande behörighet för avancerad nivåSökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.
Särskild behörighet
Engelska 6Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.
Kursspecifika förkunskaper
Kursen kräver 7,5 hp i programmering, 7,5 hp i sannolikhetsteori eller statistik, samt en första kurs i maskininlärning, t.ex. DAT340, TDA233, SSY340 eller MVE440.Syfte
Kursen ger en introduktion till maskininlärningsmodeller och arkitekturer som används i moderna system inom språkteknologi.Lärandemål (efter fullgjord kurs ska studenten kunna)
Kunskap och förståelse:- beskriva fundamentala metoder för lagring av textdata för världens språk,
- beskriva de vanligaste typerna av språkteknologiska uppgifter,
- beskriva de vanligaste typerna av maskininlärning som används inom modern språkteknologi,
- förklara hur textdata kan annoteras för en språkteknologisk uppgift inför användning av maskininlärning.
- tillämpa mjukvarubibliotek som använder sig av maskininlärningsmetoder för vanliga språkteknologiska uppgifter,
- skriva programkod för att implementera maskininlärningsmodeller för språkteknologi,
- tillämpa utvärderingsmetoder för att mäta kvaliteten hos språkteknologiska system.
- beskriva fördelar och begränsningar hos olika maskininlärningsmodeller med avseende på en given språkteknologisk uppgift,
- resonera om vilka typer av data som skulle kunna vara användbara för en given tillämpning inom språkteknologi,
- välja en lämplig utvärderingsmetod för ett språkteknologiskt system och motivera detta val,
- resonera om etiska frågor rörande språkteknologiska system som bygger på metoder inom maskininlärning, exempelvis stereotyper och underrepresentation.
Innehåll
Den snabba utveckling som sker inom maskininlärning har revolutionerat det språkteknologiska området, inklusive för kommersiellt viktiga tillämpningar som översättning, sammanfattning och informationsextraktion. Språkliga data uppvisar ett antal egenheter som gör dem mer utmanande att arbeta med i jämförelse med andra typer av data som förekommer inom maskininlärning: naturligt språk är diskret, strukturerat och mångtydigt. Det finns en enorm språklig variation: inte bara finns det tusentals språk i världen, men även inom varje språk finns det stora variationer i stil och genre. Många språkliga fenomen har en "långsvansad" statistisk fördelning, vilket gör det mer kostsamt att producera träningsdata. På grund av dessa anledningar är maskininlärningsarkitekturer för språkteknologiska tillämpningar ofta uppbyggda på ett annorlunda sätt än för tillämpningar i andra området.Kursen täcker följande breda områden:
- Att arbeta praktiskt med textdata, inklusive fundamentala uppgifter som orduppdelning och ordräkning;
- probabilistiska språkmodeller, t.ex. ämnesmodeller;
- översikt över de vanligaste typerna av språkteknologiska tillämpningar;
- representationsarkitekturer i språkteknologiska modeller, t.ex. ordinbäddningar, faltningsnät, rekurrenta nät och attention models;
- maskininlärningsmodeller för de vanligaste typerna av språkteknologiska problem, framför allt kategorisering, sekvenstaggning, strukturprediktion samt generering;
- överföringsinlärning inom språkteknologi.
Organisation
Föreläsningar och datorlaborationerLitteratur
Kurslitteratur publiceras 8 veckor innan kursstart.Examination inklusive obligatoriska moment
För att bli godkänd på kursen krävs minst betyg godkänt på alla inlämningsuppgifter samt projektet. För att få ett högre betyg än godkänt för hela kursen krävs ett högre viktat genomsnitt av betygen från inlämningsuppgifterna och projektet.Kursen examineras genom ett antal obligatoriska skriftliga inlämningsuppgifter som redovisas genom rapportinlämning, och ett självdefinerad projekt som redovisas genom rapportinlämning samt muntlig presentation. Av inlämningsuppgifterna genomförs vissa individuellt och andra i grupper om normalt 2-4 studenter. Projektet genomförs i grupper av 2-4 studenter.
Försenad inlämning av inlämningsuppgifter eller projekt innebär att lösningen får betyget Underkänd (U),om inte särskilda skäl föreligger. Underkänd inlämningsuppgift eller projekt omexamineras vid ett senare kurstillfälle.
För att bli godkänd på kursen krävs minst betyg godkänt på alla inlämningsuppgifter samt projektet. För att få ett högre betyg än godkänt för hela kursen krävs ett högre viktat genomsnitt av betygen från inlämningsuppgifterna och projektet.
Kursplanen innehåller ändringar
- Ändring gjord på kurstillfälle:
- 2020-08-18: Examinator Examinator Richard Johansson (richajo) tillagt av Viceprefekt
[Kurstillfälle 1] - 2020-05-11: Block Block A tillagt av Schemagruppen
[Kurstillfälle 1] - 2020-04-22: Max antal deltagare Max antal deltagare ändrat från 10 till 50 av PA
[Kurstillfälle 1] - 2020-04-22: MIN_PART MIN_PART 10 tillagt av PA
[Kurstillfälle 1]
- 2020-08-18: Examinator Examinator Richard Johansson (richajo) tillagt av Viceprefekt
- Ändring gjord på kurs:
- 2020-08-18: Förkunskapskrav Förkunskapskrav ändrat av UBS/Examinator
Uppdaterat kurskod; TDA233 istället för TDA231
- 2020-08-18: Förkunskapskrav Förkunskapskrav ändrat av UBS/Examinator