Stopwords Problematik i R-programmering?

#1| 0

Hej PNVA

I har tidligere bevist at der sidder en række kloge hoveder derude.

Jeg sidder og nørder med et hobby-projekt med Datamining.... Da jeg i efteråret havde lidt problemer, oplevede jeg at der vare flere kloge R-hoveder herinde, så jeg bruger lige lykken igen.


Jeg søger en vejledning/tutorial til at fjerne danske stopord i et datasæt, som jeg behandler i R. (via Rstudio)

eksempelfil - (twitter-google-doc-som-opdateres-automatisk-hver-time)


Når jeg benytter tidytext eller tm eller string , med funktioner som Stopwords, mutate, filter eller lign. får jeg ikke bugt med de danske stopord.

Har så google en liste på 170 ord, som jeg ønsker at benytte, men det lykkes hellere ikke. De forsvinder simpelthen ikke.

Koden er som følger:

reg_words <- "([^A-Za-z_\\d#@']|'(?![A-Za-z_\\d#@]))"
tidy_tweets <- tweets %>%
filter(!str_detect(text, "^RT")) %>%
mutate(text = str_replace_all(text, "https://t.co/[A-Za-z\\d]+|http://[A-Za-z\\d]+|&|<|>|RT|https", "")) %>%
unnest_tokens(word, text, token = "regex", pattern = reg_words) %>%
filter(!word %in% stop_words$word, <---ER HER JEG IKKE FÅR LØST MIT PROBLEM ORDENLIGT!
str_detect(word, "[a-z]"))


Alle bud er velkomne og kan tilbyde intet andet end glæde og taknemmelighed so svar.


Inched, gammel og gråhåret af at google..

11-07-2018 09:46 #2| 0

min regex er ikke fantastisk. men er du sikker på de køre fra et enviroment der har rigtig UTF settings så den forstår æøå. går ud fra det er æøå der menes med danske stop ord.


min regex er ikke fantastisk. men syntes din mutate streng ligner at du prøver at crawle hele nettet ?


← Gå til forumoversigtenGå til toppen ↑
Skriv et svar