Kursplan för Maskininlärning för språkteknologi

Kursplan fastställd 2021-02-26 av programansvarig (eller motsvarande).

Kursöversikt

  • Engelskt namnMachine learning for natural language processing
  • KurskodDAT450
  • Omfattning7,5 Högskolepoäng
  • ÄgareMPDSC
  • UtbildningsnivåAvancerad nivå
  • HuvudområdeInformationsteknik
  • InstitutionDATA- OCH INFORMATIONSTEKNIK
  • BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd

Kurstillfälle 1

  • Undervisningsspråk Engelska
  • Anmälningskod 87115
  • Max antal deltagare50
  • Min. antal deltagare10
  • Blockschema
  • Sökbar för utbytesstudenterNej

Poängfördelning

0120 Inlämningsuppgift 7,5 hp
Betygsskala: TH
7,5 hp

I program

Examinator

Gå till kurshemsidan (Öppnas i ny flik)

Behörighet

Grundläggande behörighet för avancerad nivå
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Särskild behörighet

Engelska 6
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Kursspecifika förkunskaper

Kursen kräver 7,5 hp i programmering, 7,5 hp i sannolikhetsteori eller statistik, samt en första kurs i maskininlärning, t.ex. DAT340, TDA233, SSY340 eller MVE440.

Syfte

Kursen ger en introduktion till maskininlärningsmodeller och arkitekturer som används i moderna system inom språkteknologi.

Lärandemål (efter fullgjord kurs ska studenten kunna)

Kunskap och förståelse:
  • beskriva fundamentala metoder för lagring av textdata för världens språk,
  • beskriva de vanligaste typerna av språkteknologiska uppgifter,
  • beskriva de vanligaste typerna av maskininlärning som används inom modern språkteknologi,
  • förklara hur textdata kan annoteras för en språkteknologisk uppgift inför användning av maskininlärning.
Färdighet och förmåga:
  • tillämpa mjukvarubibliotek som använder sig av maskininlärningsmetoder för vanliga språkteknologiska uppgifter,
  • skriva programkod för att implementera maskininlärningsmodeller för språkteknologi,
  • tillämpa utvärderingsmetoder för att mäta kvaliteten hos språkteknologiska system.
Värderingsförmåga och förhållningssätt:
  • beskriva fördelar och begränsningar hos olika maskininlärningsmodeller med avseende på en given språkteknologisk uppgift,
  • resonera om vilka typer av data som skulle kunna vara användbara för en given tillämpning inom språkteknologi,
  • välja en lämplig utvärderingsmetod för ett språkteknologiskt system och motivera detta val,
  • resonera om etiska frågor rörande språkteknologiska system som bygger på metoder inom maskininlärning, exempelvis stereotyper och underrepresentation.

Innehåll

Den snabba utveckling som sker inom maskininlärning har revolutionerat det språkteknologiska området, inklusive för kommersiellt viktiga tillämpningar som översättning, sammanfattning och informationsextraktion. Språkliga data uppvisar ett antal egenheter som gör dem mer utmanande att arbeta med i jämförelse med andra typer av data som förekommer inom maskininlärning: naturligt språk är diskret, strukturerat och mångtydigt. Det finns en enorm språklig variation: inte bara finns det tusentals språk i världen, men även inom varje språk finns det stora variationer i stil och genre. Många språkliga fenomen har en "långsvansad" statistisk fördelning, vilket gör det mer kostsamt att producera träningsdata. På grund av dessa anledningar är maskininlärningsarkitekturer för språkteknologiska tillämpningar ofta uppbyggda på ett annorlunda sätt än för tillämpningar i andra området.

Kursen täcker följande breda områden:
  • Att arbeta praktiskt med textdata, inklusive fundamentala uppgifter som orduppdelning och ordräkning;
  • probabilistiska språkmodeller, t.ex. ämnesmodeller;
  • översikt över de vanligaste typerna av språkteknologiska tillämpningar;
  • representationsarkitekturer i språkteknologiska modeller, t.ex. ordinbäddningar, faltningsnät, rekurrenta nät och attention models;
  • maskininlärningsmodeller för de vanligaste typerna av språkteknologiska problem, framför allt kategorisering, sekvenstaggning, strukturprediktion samt generering;
  • överföringsinlärning inom språkteknologi.

Organisation

Föreläsningar och datorlaborationer

Litteratur

Kurslitteratur publiceras 8 veckor innan kursstart.

Examination inklusive obligatoriska moment

För att bli godkänd på kursen krävs minst betyg godkänt på alla inlämningsuppgifter samt projektet. För att få ett högre betyg än godkänt för hela kursen krävs ett högre viktat genomsnitt av betygen från inlämningsuppgifterna och projektet.
Kursen examineras genom ett antal obligatoriska skriftliga inlämningsuppgifter som redovisas genom rapportinlämning, och ett självdefinerad projekt som redovisas genom rapportinlämning samt muntlig presentation. Av inlämningsuppgifterna genomförs vissa individuellt och andra i grupper om normalt 2-4 studenter. Projektet genomförs i grupper av 2-4 studenter.
Försenad inlämning av inlämningsuppgifter eller projekt innebär att lösningen får betyget Underkänd (U),om inte särskilda skäl föreligger. Underkänd inlämningsuppgift eller projekt omexamineras vid ett senare kurstillfälle.
För att bli godkänd på kursen krävs minst betyg godkänt på alla inlämningsuppgifter samt projektet. För att få ett högre betyg än godkänt för hela kursen krävs ett högre viktat genomsnitt av betygen från inlämningsuppgifterna och projektet.

Kursens examinator får examinera enstaka studenter på annat sätt än vad som anges ovan om särskilda skäl föreligger, till exempel om en student har ett beslut från Chalmers om pedagogiskt stöd på grund av funktionsnedsättning.