dokumentasjon #1

eiriks · 2016-01-27T14:51:00Z

Hei, flott opplegg du hart her. Dette er et målepunkt for norsk språk jeg gjerne kan inkorporere i ting jeg holder på med (automatisk analyse av nettaviser f.eks). For at det skal være enkelt trengs noe dokumentasjon. Ting jeg lurer på er f.eks. hva som er i ordlistene i /private/ mappen, hvordan disse er satt sammen, og en (røff eller konkret) beskrivelse av hvordan du gir ord (eller hele tekster) vekt for hvor akademisk ordet (eller teksten som helhet) er. Mitt mål vil være å koke det ned til en funksjon som gir en score for en tekst, event med ekstra data for enkeltord ord deres individuelle score. Høres dette ut som en gjennomførbar idé?

Er dette noe du kan knote ned i en readme her?
(jeg vil, i den grad jeg endre opp med å bruke dette - som jeg gjerne vil-, skrive det om til python)

arashsa · 2016-01-27T15:05:45Z

Hei Erik. Det som er i private er en akademisk ordliste, og en rekke setninger som fungerer som eksempler på hvordan disse blir brukt. Det er brukt en rekke statistiske mål for å kompilere listen fra et stort korpus av akademiske tekster (tekstene er fra DUO - digitale publikasjoner ved Universitetet i Oslo). Du kan finne de statistiske metodene her: https://github.com/arashsa/GardnerDavies2

Som du kan se er de metodene skrevet i Python, og du kan godt bruke de som du vil. Jeg har dessverre ikke tid til å skrive noen utfyllende readme for noen av prosjektene enda, men kommer tilbake til deg når jeg har litt tid til å rydde opp i prosjektene mine og dokumentere bedre. Jeg har planer om dette på et senere tidspunkt. Du kan se prosjektet online her: http://www.tekstlab.uio.no:4000/

Lykke til med prosjektet. Høres spennende ut, og det er absolutt gjennomførbart. Jeg vil tro du kan få gode resultater ved å bruke http://scikit-learn.org/stable/ (maskinlæringspakke til Python). Med en slik pakke kan du lære opp, kanskje ved å bruke ordlisten som ligger i private mappen på mitt prosjekt, til å gjenkjenne akademiske tekster og gi en score.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

dokumentasjon #1

dokumentasjon #1

eiriks commented Jan 27, 2016

arashsa commented Jan 27, 2016

dokumentasjon #1

dokumentasjon #1

Comments

eiriks commented Jan 27, 2016

arashsa commented Jan 27, 2016