Henter kommentarer

Danske forskere har lavet AI-program baseret på Heste-Nettet


 

En gruppe af danske forskere måtte ty til webforummet Heste-Nettet, da de skulle bygge deres AI-model. 

Det skriver Bloomberg News. 

I 2021 ville en gruppe forskere gerne lave et datasæt af det danske sprog, som de kunne bruge til at træne et program med kunstig intelligens. Her rendte de dog ind i en række problemer, herunder at en del danske skriveri - blandt andet nyhedsartikler - er under ret restriktiv ophavsret.

Forskerne kunne få adgang til tekster som for eksempel danske lovtekster, men de vidste også godt, at disse tekster ikke var en god repræsentation af, hvordan almindelige danskere skriver og taler. 

Derfor endte forskerne med en anden løsning - nemlig heste-nettet.dk.

Læs også: Aktiechef med negativt syn på USA: 'Det scenarie har vi meget svært ved at se for os'

Heste-nettet er et dansk webforum, der er oprettet i 1997 for ryttere, opdrættere og andre hesteentusiaster, hvor de kan skrive om heste. Derudover er det en af de første danske webfora på nettet

Senere udviklede chatten sig dog fra heste til også at handle om alt fra parforholdsdilemmaer, til hvor lang tid et blødekogt æg skal koge. 

Flere danskere kender også Heste-Nettet, som den hjemmeside der kommer op, når man skriver et næsten hvilket som helst spørgsmål i Google, og derefter kan man i mange tilfælde opleve, at der kommer et link til Heste-Nettet med en chattråd, hvor en anden person har stillet et lignende spørgsmål. 

På Reddit har en dansk bruger skrevet, at »hvilket som helst spørgsmål i universet er blevet stillet - og svaret« på Heste-Nettet. Derudover sammenligner brugeren det med Yahoo answers, »men bedre.«

Læs også: De nye boligskatter gør det sværere at låne for førstegangskøbere

I udviklingen af det omtalte danske AI-program består 22 pct. af datasættet af indlæg på Heste-Nettet og er dermed den største enkeltkilde til materialet. 

Ikke engang de sociale medier Reddit eller X (tidligere kendt som Twitter) tilbyder den samme mængde af almindelig dansk sprog, der skal til for at træne kunstig inteligens, lyder det fra Leon Derczynski, der er professor i computervidenskab på IT-Universitetet i København og som var leder af det danske AI-projekt.

Han forklarer, at fra en forskers perspektiv, så er al »chitchatten«, både hesterelateret og ikke-hesterelateret, rigtig vigtig, da det også inkluderer afslappet slang. Derudover hjælper det også, at al data på hjemmesiden er offentligt tilgængeligt. 

Disse egenskaber gør det værdifuldt, selvom en del informationer på sitet har sine særheder. 

»Der er bestemt et hestebias. Hvis du vil vide noget om heste, er det helt sikkert derinde,« siger Leon Derczynski.

Læs også: 'Investorerne er bekymret':  Kinesisk børskollaps sender rystelser igennem stor dansk aktie

Læs også: Storbank: Defensive aktier står til nye stigninger