Kursplan för Maskininlärning för språkteknologi

Kursplan fastställd 2025-02-03 av programansvarig (eller motsvarande).

Kursöversikt

  • Engelskt namnMachine learning for natural language processing
  • KurskodDAT450
  • Omfattning7,5 Högskolepoäng
  • ÄgareMPDSC
  • UtbildningsnivåAvancerad nivå
  • HuvudområdeInformationsteknik
  • InstitutionDATA- OCH INFORMATIONSTEKNIK
  • BetygsskalaTH - Mycket väl godkänd (5), Väl godkänd (4), Godkänd (3), Underkänd

Kurstillfälle 1

  • Undervisningsspråk Engelska
  • Anmälningskod 87123
  • Max antal deltagare50
  • Min. antal deltagare10
  • Sökbar för utbytesstudenterNej

Poängfördelning

0120 Inlämningsuppgift 7,5 hp
Betygsskala: TH
7,5 hp

I program

Examinator

Behörighet

Grundläggande behörighet för avancerad nivå
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Särskild behörighet

Engelska 6
Sökande med en programregistrering på ett program där kursen ingår i programplanen undantas från ovan krav.

Kursspecifika förkunskaper

Kursen kräver 7,5 hp i programmering, 7,5 hp i sannolikhetsteori eller statistik, samt en första kurs i maskininlärning, t.ex. DAT340, TDA233, SSY340 eller MVE440.

Syfte

Kursen ger en introduktion till maskininlärningsmodeller och arkitekturer som används i moderna system inom språkteknologi.

Lärandemål (efter fullgjord kurs ska studenten kunna)

Kunskap och förståelse:
  • beskriva de vanligaste typerna av språkteknologiska uppgifter,
  • beskriva de vanligaste typerna av maskininlärningsmodeller som används inom modern språkteknologi,
  • beskriva de tekniker som används för att utveckla stora språkmodeller,
  • förklara hur textdata kan annoteras för en språkteknologisk uppgift inför användning av maskininlärning.
Färdighet och förmåga:
  • tillämpa mjukvarubibliotek som använder sig av maskininlärningsmetoder för vanliga språkteknologiska uppgifter,
  • använda och anpassa förtränade språkmodeller,
  • skriva programkod för att implementera maskininlärningsmodeller för att lösa språkteknologiska uppgifter,
  • använda promptbaserade stora språkmodeller lokalt och via API,
  • tillämpa utvärderingsmetoder för att mäta kvaliteten hos språkteknologiska system.
Värderingsförmåga och förhållningssätt:
  • beskriva fördelar och begränsningar hos olika maskininlärningsmodeller med avseende på en given språkteknologisk uppgift,
  • resonera om vilka typer av data som skulle kunna vara användbara för en given tillämpning inom språkteknologi,
  • resonera om styrkor och svagheter hos promptbaserade stora språkmodeller i jämförelse med övervakade metoder,
  • välja en lämplig utvärderingsmetod för ett språkteknologiskt system och motivera detta val,
  • resonera om etiska frågor rörande språkteknologiska system som bygger på metoder inom maskininlärning, exempelvis stereotyper och underrepresentation.

Innehåll

Den snabba utveckling som sker inom maskininlärning har revolutionerat det språkteknologiska området, inklusive för kommersiellt viktiga tillämpningar som översättning, sammanfattning och informationsextraktion. Framför allt har de senaste åren präglats av det genombrott som stora språkmodeller innebär, vilket har lett till nya sätt att utveckla språkteknologiska tillämpningar.

Språkliga data uppvisar ett antal egenheter som gör dem mer utmanande att arbeta med i jämförelse med andra typer av data som förekommer inom maskininlärning: naturligt språk är diskret, strukturerat och mångtydigt. Det finns en enorm språklig variation: inte bara finns det tusentals språk i världen, men även inom varje språk finns det stora variationer i stil och genre. Många språkliga fenomen har en "långsvansad" statistisk fördelning, vilket gör det mer kostsamt att producera träningsdata. På grund av dessa anledningar är maskininlärningsarkitekturer för språkteknologiska tillämpningar ofta uppbyggda på ett annorlunda sätt än för tillämpningar i andra området.

Kursen täcker följande breda områden:
  • Att arbeta praktiskt med textdata, inklusive fundamentala uppgifter som orduppdelning och ordräkning;
  • probabilistiska språkmodeller, t.ex. ämnesmodeller;
  • översikt över de vanligaste typerna av språkteknologiska tillämpningar;
  • representationsarkitekturer i språkteknologiska modeller, t.ex. ordinbäddningar, rekurrenta nät och Transformers;
  • maskininlärningsmodeller för de vanligaste typerna av språkteknologiska problem, framför allt kategorisering, sekvenstaggning, strukturprediktion samt generering;
  • användning av promptbaserade språkmodeller via API och lokalt;
  • förträning och instruktionsträning av stora språkmodeller;
  • överföringsinlärning inom språkteknologi.

Organisation

Lärarledd undervisning samt datorlaborationer där studenter får hjälp med inlämningsuppgifter. Den lärarledda undervisningen använder mestadels ett interaktivt flipped classroom-upplägg, men det finns också enstaka föreläsningar.

Inga moment med obligatorisk närvaro.

Litteratur

Kurslitteratur publiceras 8 veckor innan kursstart.

Examination inklusive obligatoriska moment

För att bli godkänd på kursen krävs minst betyg godkänt på alla inlämningsuppgifter samt projektet. För att få ett högre betyg än godkänt för hela kursen krävs ett högre viktat genomsnitt av betygen från inlämningsuppgifterna och projektet.
Kursen examineras genom ett antal obligatoriska skriftliga inlämningsuppgifter som redovisas genom rapportinlämning, och ett självdefinerad projekt som redovisas genom rapportinlämning samt muntlig presentation. Av inlämningsuppgifterna genomförs vissa individuellt och andra i grupper om normalt 2-4 studenter. Projektet genomförs i grupper av 2-4 studenter.
Försenad inlämning av inlämningsuppgifter eller projekt innebär att lösningen får betyget Underkänd (U),om inte särskilda skäl föreligger. Underkänd inlämningsuppgift eller projekt omexamineras vid ett senare kurstillfälle.
För att bli godkänd på kursen krävs minst betyg godkänt på alla inlämningsuppgifter samt projektet. För att få ett högre betyg än godkänt för hela kursen krävs ett högre viktat genomsnitt av betygen från inlämningsuppgifterna och projektet.

Kursens examinator får examinera enstaka studenter på annat sätt än vad som anges ovan om särskilda skäl föreligger, till exempel om en student har ett beslut från Chalmers om riktat pedagogiskt stöd på grund av funktionsnedsättning.