Maskinlæring (ELE520)

Kurset fokuserer på det matematiske grunnlaget for metoder for læring av underliggende strukturer representert i data og trening av modeller son kan gjøre prediksjoner på nye data. Slike prediksjoner kan typisk være å skille mellom ulike kategorier av data, det vil si klassifisering, som vil være hovedfokus for dette kurset.


Dette er emnebeskrivelsen for studieåret 2024-2025. Merk at det kan komme endringer.

Fakta

Emnekode

ELE520

Versjon

1

Vekting (stp)

10

Semester undervisningsstart

Vår

Antall semestre

1

Vurderingssemester

Vår

Undervisningsspråk

Engelsk

Innhold

Emnet starter med å gi en innføring i den grunnleggende teorien, Bayes desisjonsteori. Denne statistisk og matematisk funderte teorien lar oss definere optimale desisjonsgrenser for å kunne skille dataelementene, representert ved såkalte egenskapsvektorer, fra hverandre. Disse desisjonsgrensene er optimale i forhold til at de minimerer den forventede feilraten eller mer generelt, forventet risiko. Den innledende teorien forutsetter at de statistiske funksjonene som beskriver dataene i de ulike klassene er kjent. I praksis vil dette som regel ikke være tilfelle, og derfor må disse funksjonene estimeres ved bruk av parametriske og ikke-parametriske metoder. Alternativt til å estimere de statistiske funksjonene direkte, kan en estimere koeffisientene i polynomer som beskriver desisjonsgrensene direkte. Dette introduseres med lineære diskriminantfunksjoner hvor en søker å bestemme de polynomkoeffisientene som minimerer feilraten uttrykt ved en kriteriefunksjon. Til denne minimeringen benyttes iterative nedstigningsteknikker. Kurvetilpasning ved regresjonsanalyse presenteres også i denne sammenhengen. Videre presenteres nevrale nett som kan benyttes til å løse problemer der lineære diskriminantfunksjoner ikke strekker til. Som en del av dette vil en også diskutere dype nevrale nett, som er utgangspunktet for dyplæring. I teknikkene presentert så langt forutsetter en at dataenes klassetilhørighet er kjent. Ved bruk av klyngeinndeling antas ikke lenger noe om klassetilhørighet og en søker å finne naturlige grupperinger i datamaterialet. Til slutt presenteres metoder for å evaluere klassifiserere. Et annet viktig trekk ved klassifisering er hvordan datamaterialet karakteriseres ved egenskapsvektorer. De ulike delene av pensum vil følges opp med teori- og laboratorieoppgaver. Underveis i kurset vises illustrerende eksempler fra pågående forskningsprosjekter innen biomedisink dataanalyse.

Læringsutbytte

Etter å ha tatt dette emnet skal studenten kunne kjenne igjen problemstillinger som kan håndteres ved bruk av maskinlæringsmetoder. Videre skal studenten kunne presisere og formulere problemstillingen ved bruk av fagterminologien som er tilegnet gjennom kurset. Løsning av problemet innebærer at studenten skal kunne implementere en klassifiserer ved å trene denne opp ved hjelp av et representativt datasett og gjøre denne i stand til å håndtere innkommende data. Studenten skal kunne håndtere ulike typer klassifiserere og kjenne teorien for disse slik at spesialtilpassede løsninger skal kunne utvikles.

Forkunnskapskrav

Se avsnitt 'Anbefalt forkunnskapskrav'

Anbefalte forkunnskaper

DAT120 Grunnleggende programmering, MAT100 Matematiske metoder 1, STA100 Sannsynlighetsregning og statistikk 1, STA500 Sannsynlighetsregning og statistikk 2, STA510 Statistisk modellering og simulering
I dette emnet formidles de ulike metodene gjennom å presentere og forklare de matematiske detaljene. Studenter som ønsker å følge kurset må ha solide matematiske forkunnskaper spesielt innen lineær algebra og statistikk. Det legges stor vekt på laboratoriedelen av kurset hvor en bruker Scientific Python. De som følger kurset må derfor også ha gode ferdigheter innen programmering, og må være kunne skrive funksjoner med bruk av iterative kontrollstrukturer og tenke gjenbruk av kode.

Eksamen / vurdering

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Skriftlig eksamen 1/1 4 Timer Bokstavkarakterer Ingen trykte eller håndskrevne hjelpemidler tillatt. Godkjent, enkel kalkulator tillatt

Digital eksamen.

Vilkår for å gå opp til eksamen/vurdering

Øvingsoppgaver
Obligatoriske arbeidskrav (som øvingsoppgaver, laboratorieoppgaver, prosjektoppgaver og lignende) skal være godkjent av faglærer innen angitt frist. Det obligatoriske øvingsopplegget må være godkjent for å få adgang til eksamen. Kandidater med ikke godkjent obligatorisk øvingsopplegg kan ikke gjenoppta dette før neste gang emnet har ordinær undervisning.

Fagperson(er)

Ansvarlig laboratorieøvelser:

Ivica Kostric

Instituttleder:

Tom Ryen

Arbeidsformer

8 timer per uke typisk fordelt på 4 timer forelesning, 2 timer dataøvinger og 2 timer teoretiske regneøvinger pr. uke. Varianter av dette vil kunne forekomme.

Det er viktig å jobbe med regne- og dataøvinger for å få erfaring med bruk av metodene som undervises slik at metodene senere kan anvendes.

Overlapping

Emne Reduksjon (SP)
Mønstergjenkjenning (MIK190_1) 10
Maskinlæring (E-ELE501_1) 5
Maskinlæring (E-MDS110_1) 5
Maskinlæring, Maskinlæring ( E-ELE501_1 E-MDS110_1 ) 10

Åpent for

Data Science - master i teknologi/siv.ing. Computational Engineering - master i teknologi/siv.ing. Datateknologi - master i teknologi/siv.ing. Industriell økonomi - master i teknologi/siv.ing. Robotteknologi og signalbehandling - master i teknologi/siv.ing.
Utveksling ved Det teknisk- naturvitenskapelige fakultet

Emneevaluering

Det skal være en tidligdialog mellom emneansvarlig, studenttillitsvalgt og studentene. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester.I tillegg skal det gjennomføres en digital emneevaluering minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Søk etter pensumlitteratur i Leganto