Datautvinning og dyplæring (DAT550)

Formålet med dette kurset er at studentene skal få kunnskap og praktisk erfaring med datautvinning (data mining) og dyplæringsteknikker. Emnet skal gi studentene dyp kjennskap til teknologier for datautvinning. Studentene skal kunne forberede storskala data for datautvinning (forbehandling), featureekstraksjon, dimensjonsreduksjon og bruke en rekke veiledet og ikke-veiledet læring for klassifisering, regresjon og klynging oppgaver some hjelper for å trekke ut nyttig kunnskap fra data. Kurset skal gi studentene mulighet til å lære moderne datautvinnings- og dyplæringsalgoritmer og -verktøy. Studentene vil få praktisk erfaring gjennom å prøve disse verktøyene på ekte data.


Dette er emnebeskrivelsen for studieåret 2024-2025. Merk at det kan komme endringer.

Fakta

Emnekode

DAT550

Versjon

1

Vekting (stp)

10

Semester undervisningsstart

Vår

Antall semestre

1

Vurderingssemester

Vår

Undervisningsspråk

Engelsk

Innhold

  • Ikke-veiledet læring

    • Datarensing, transformasjon og forberedelse
    • Dimensjonalitetsreduksjon, SVD, PCA
    • Gruppering
  • Veiledet læring

    • Klassifisering
    • Nevrale nett og dyplæring
    • Anbefalingssystemer

Læringsutbytte

Kunnskap

Kandidaten har:

  • avansert kunnskap innenfor fagområdet og spesialisert innsikt i teori og praksis om data forberedelse, utvelgelse og utvinning.
  • inngående kunnskap om fagområdets vitenskapelige metoder.
  • kan anvende kunnskap på nye områder innenfor datautvinning og dyplæring.

Ferdigheter

Kandidaten:

  • kan analysere og forholde seg kritisk til ulike informasjonskilder og anvende disse til å strukturere og formulere faglige resonnementer for ulike datautvinningsoppgaver.
  • kan analysere eksisterende teorier, metoder og fortolkninger innenfor fagområdet datautvinning og dyplæring og arbeide selvstendig med datautvinning og dyplæring
  • kan bruke relevante datautvinningsmetoder som klynging (clustering), klassifisering, og datautvinning fra grafer og datastrømmer, vanlige mønstre, sammenhenger, dyplæring for forskning og faglig utviklingsarbeid på en selvstendig måte.
  • kan gjennomføre et selvstendig, avgrenset forsknings- eller utviklingsprosjekt under veiledning og i tråd med gjeldende forskningsetiske normer som innebærer å implementere data mining pipelines, vurdere og stille parameterne for ulike data mining modeller ved hjelp av state-of-the-art verktøy.

Generell kompetanse

Kandidaten:

  • kan analysere relevante fag-, yrkes- og forskningsetiske problemstillinger i datautvinning og dyplæring.
  • kan anvende sine kunnskaper og ferdigheter på nye områder for å gjennomføre avanserte arbeidsoppgaver og prosjekter.
  • kan formidle omfattende selvstendig arbeid om datautvinning og dyplæring problemstillinger.
  • kan kommunisere problemstillinger, analyser og konklusjoner innenfor fagområdet, både med spesialister og allmennheten.
  • kan bidra til nytenking og i innovasjonsprosesser i datautvinning og dyplæring.
  • Identifisere de teoretiske og praktiske utfordringene bak ulike data mining og dyplæringsteknikker. Kan liste opp og beskrive styrker, begrensninger og avveininger mellom ulike data mining teknikker og velge de riktige teknikker for å løse datavitenskapelige problemer for ulike applikasjoner.

Forkunnskapskrav

Ingen

Anbefalte forkunnskaper

DAT120 Grunnleggende programmering, STA500 Sannsynlighetsregning og statistikk 2

Eksamen / vurdering

Skriftlig eksamen, prosjektrapport og obligatoriske øvinger

Vurderingsform Vekting Varighet Karakter Hjelpemiddel
Skriftlig eksamen 60/100 4 Timer Bokstavkarakterer Ingen hjelpemidler tillatt
Prosjektrapport 25/100 Bokstavkarakterer Alle

Tre obligatoriske oppgaver gis karakter som utgjør 3/20 (15 %) av endelig karakter.Prosjektoppgave bestående av en stor programmeringsoppgave. Oppgaven utføres i gruppe. Karakteren for prosjektoppgaven baseres på innlevert programkode og prosjektrapport og gruppevis muntlig fremføring av innlevert programkode. Begge deler må gjennomføres før endelig karakter fastsettes. Hvis en student ikke består prosjektoppgaven, må hun/han ta denne om igjen neste gang emnet undervises.Skriftlig eksamen er digital (Inspera).Begge vurderingsenheter må være bestått for å få endelig karakter i emnet.

Vilkår for å gå opp til eksamen/vurdering

Obligatoriske øvinger

Tre obligatoriske graderte (A-F) øvinger/programmeringsoppgaver som utgjør 3/20 (15%) av sluttkarakteren.

Tre obligatoriske øvelser / programmeringsoppgaver som må være godkjent. Disse evalueres til godkjent / ikke godkjent.

Alle programmeringsøvelser må bestås for å få delta på skriftlig eksamen og for å få godkjent prosjekt.

Ferdigstillelse av obligatoriske laboratorieoppgaver skal gjøres innen angitte frister. Fravær på grunn av sykdom eller av andre årsaker skal meddeles laboratoriepersonalet snarest mulig. Man kan ikke forvente at bestemmelser for ferdigstillelse av laboratorieoppdragene på andre tidspunkter utføres med mindre avtale med laboratoriepersonalet er avtalt.

Hvis du ikke fullfører de tildelte laboratorieoppgavene i tide eller ikke har fått de godkjent, vil du ikke få adgang til eksamen.

Fagperson(er)

Emneansvarlig:

Vinay Jayarama Setty

Faglærer:

Mina Farmanbar

Instituttleder:

Tom Ryen

Arbeidsformer

4 timer forelesninger / øvingsgjennomgang og 2 timer veiledede programmeringsøvelser og prosjekt. Programmeringsøvelser krever ytterligere ikke-veiledet arbeidsinnsats.

Overlapping

Emne Reduksjon (SP)
Websøk og data mining (DAT630_1) 5

Åpent for

Enkeltemner ved Det teknisk-naturvitenskaplige fakultet
Datateknologi - master i teknologi/siv.ing.

Emneevaluering

Det skal være en tidligdialog mellom emneansvarlig, studenttillitsvalgt og studentene. Formålet er tilbakemelding fra studentene for endringer og justering i emnet inneværende semester.I tillegg skal det gjennomføres en digital emneevaluering minimum hvert tredje år. Den har som formål å innhente studentenes erfaringer med emnet.

Litteratur

Søk etter pensumlitteratur i Leganto