Сообщения Рейхсканцлер

1
>>>
2019.03.26Arhaluk Рейхсканцлер, а Вы читали Курдюмова?

Нет, особо не читал. У него вроде все исследования узкопрофильные, только для китайского языка, к европейским не очень применимо?
2019.03.26
Тема Ответить
2
>>>
2019.03.26yf102 Arhaluk, Конечно, существительное.

Вы де-факто пытаетесь вывести морфологию из синтаксиса. По-моему, это не такие уж связанные вещи.
1) Синтаксис, то есть деление на члены предложения - управляет распределением смысла по фразе: смысл идет от подлежащего к сказуемому, затем растекается по обстоятельствам и дополнениям; любые вещи типа выноса темы вперед, инверсии слов и тд - все это оказывается важно.
2) Морфология, то есть деление слов по частям речи и все то, что вы перечисляли (склонения существительных, спряжения глаголов и тд) отвечает нашему представлению о мире, в котором нужно как минимум отличать объект, его действие и его состояние, то есть существительные, глаголы и прилагательные.

Попробуйте, например, такой ключевой момент морфологии как наличие или отсутствие гендерных окончаний у имен существительных (мужского, женского, среднего рода) вывести из анализа структуры предложения (например, из того факта, что существительное часто является подлежащим, или что там вы говорили выше) и увидите, насколько это несвязанные вещи. По-моему, это не очень перспективный путь - искать морфологические корреляты синтаксических закономерностей.
2019.03.26
Тема Ответить
3
>>>
2019.03.25Arhaluk Рейхсканцлер, простите, если глупый вопрос. Что такое chinese-gsd, почему это "модель"?
udpipe - примерно понял, что такое

Пакет udpipe хранит описания внутренней логики каждого языка в специальных контейнерах, называемых "моделями". Каждый язык имеет свою модель, которую надо подгружать перед работой с конкретным языком. Одна и та же фраза на русском и белорусском может оказаться совершенно разной по грамматической структуре (например, слово "собака" в белорусском будет мужского рода). Для китайского стандартная модель называется "chinese-gsd", в ней в 14 мегабайтах описана вся основная грамматика (но, видимо, все-таки не вся, раз эксперимент показывает, что разбивка на слова хромает)
2019.03.25
Тема Ответить
4
>>>
Попробовал применить для этой цели R.

Код такой:

Код:
library(udpipe)
m <- udpipe_download_model(language = "chinese-gsd", model_dir = tempdir())
m <- udpipe_load_model(file = m$file_model)
f <- function(words){
 df <- data_frame(w = c('Слово'), res = c('Часть речи'))
 for (w in words) {
   res <- paste(as.data.frame(udpipe_annotate(m, x = w))$upos, collapse = '+')
   df[nrow(df) + 1,] = c(w, res)
 }
 return(df)                    
}

И вот что на выходе:

Сначала проверяем на заведомо простых данных
Код:
f(c('她','很','好','看'))
1 Слово Часть речи
2 她    PRON      
3 很    ADV      
4 好    ADJ      
5 看    VERB

Видно, что все в порядке.

Теперь берем примеры выше:
Код:
f(c('光临', '不好意思', '隔壁', '怪不得', '难怪', '如今', '舍不得', '业余', '宁可', '未必', '往返'))
1 Слово    Часть речи
2 光临     NOUN+NOUN
3 不好意思 ADJ+NOUN  
4 隔壁     PROPN    
5 怪不得   NOUN+AUX  
6 难怪     NOUN+PART
7 如今     NOUN      
8 舍不得   NOUN+AUX  
9 业余     NOUN+NOUN
10 宁可     NOUN+AUX  
11 未必     VERB      
12 往返     VERB

Тут уже видны косяки (未必 явно не VERB), да и вообще детектирование многосложных слов прихрамывает. Но все-таки это уже лучше чем ничего. Если кто R пользуется и у него есть своя натренированная модель вместо стандартной chinese-gsd, то можно поделиться на форуме.

Если кто R не пользуется, но интересно пощупать, что это вообще такое - есть хорошие бесплатные курсы для лингвистов, к примеру, тут.
2019.03.25
Тема Ответить