Определение в словах частей речи

Рейхсканцлер

2019.03.26Arhaluk Рейхсканцлер, а Вы читали Курдюмова?

Нет, особо не читал. У него вроде все исследования узкопрофильные, только для китайского языка, к европейским не очень применимо?

Рейхсканцлер

>>>

2019.03.26yf102 Arhaluk, Конечно, существительное.

Вы де-факто пытаетесь вывести морфологию из синтаксиса. По-моему, это не такие уж связанные вещи.
1) Синтаксис, то есть деление на члены предложения - управляет распределением смысла по фразе: смысл идет от подлежащего к сказуемому, затем растекается по обстоятельствам и дополнениям; любые вещи типа выноса темы вперед, инверсии слов и тд - все это оказывается важно.
2) Морфология, то есть деление слов по частям речи и все то, что вы перечисляли (склонения существительных, спряжения глаголов и тд) отвечает нашему представлению о мире, в котором нужно как минимум отличать объект, его действие и его состояние, то есть существительные, глаголы и прилагательные.

Попробуйте, например, такой ключевой момент морфологии как наличие или отсутствие гендерных окончаний у имен существительных (мужского, женского, среднего рода) вывести из анализа структуры предложения (например, из того факта, что существительное часто является подлежащим, или что там вы говорили выше) и увидите, насколько это несвязанные вещи. По-моему, это не очень перспективный путь - искать морфологические корреляты синтаксических закономерностей.

Рейхсканцлер

>>>

2019.03.25Arhaluk Рейхсканцлер, простите, если глупый вопрос. Что такое chinese-gsd, почему это "модель"?
udpipe - примерно понял, что такое

Пакет udpipe хранит описания внутренней логики каждого языка в специальных контейнерах, называемых "моделями". Каждый язык имеет свою модель, которую надо подгружать перед работой с конкретным языком. Одна и та же фраза на русском и белорусском может оказаться совершенно разной по грамматической структуре (например, слово "собака" в белорусском будет мужского рода). Для китайского стандартная модель называется "chinese-gsd", в ней в 14 мегабайтах описана вся основная грамматика (но, видимо, все-таки не вся, раз эксперимент показывает, что разбивка на слова хромает)

Рейхсканцлер

>>>

Попробовал применить для этой цели R.

Код такой:

Код:

library(udpipe)

m <- udpipe_download_model(language = "chinese-gsd", model_dir = tempdir())

m <- udpipe_load_model(file = m$file_model)

f <- function(words){

 df <- data_frame(w = c('Слово'), res = c('Часть речи'))

 for (w in words) {

   res <- paste(as.data.frame(udpipe_annotate(m, x = w))$upos, collapse = '+')

   df[nrow(df) + 1,] = c(w, res)

 }

 return(df)                    

}

И вот что на выходе:

Сначала проверяем на заведомо простых данных

Код:

f(c('她','很','好','看'))

Слово Часть речи

她    PRON      

很    ADV       

好    ADJ       

看    VERB

Видно, что все в порядке.

Теперь берем примеры выше:

Код:

f(c('光临', '不好意思', '隔壁', '怪不得', '难怪', '如今', '舍不得', '业余', '宁可', '未必', '往返'))

Слово    Часть речи

光临     NOUN+NOUN 

不好意思 ADJ+NOUN  

隔壁     PROPN     

怪不得   NOUN+AUX  

难怪     NOUN+PART 

如今     NOUN      

舍不得   NOUN+AUX  

业余     NOUN+NOUN 

宁可     NOUN+AUX  

未必     VERB      

往返     VERB

Тут уже видны косяки (未必 явно не VERB), да и вообще детектирование многосложных слов прихрамывает. Но все-таки это уже лучше чем ничего. Если кто R пользуется и у него есть своя натренированная модель вместо стандартной chinese-gsd, то можно поделиться на форуме.

Если кто R не пользуется, но интересно пощупать, что это вообще такое - есть хорошие бесплатные курсы для лингвистов, к примеру, тут.