Показаны наиболее выделенные сообщения темы
Всего реакций в теме: 457
Вернуться в полную тему >>>
1
>>>
Для всех тех, кто еще не знает, для тех кто знал, но забыл, ну и, конечно, для тех, кто знал, но делал вид что не знает:

Русско-китайский параллельный корпус НКРЯ

Цитата:Объем параллельного корпуса - больше 2,3 миллиона слов. Он состоит из 30 художественных текстов русских и китайских авторов XIX-XXI вв., среди которых Лю Чжэньюнь 劉震云, Ф.М. Достоевский, Л.Е. Улицкая, Лу Синь 劉歆 и другие.

Сегодня у Корпуса есть русский и английский интерфейс; идет работа над созданием китайской версии сайта.

Сейчас проект — единственный разрабатываемый в России параллельный корпус, обладающий сразу четырьмя полезными свойствами:

1) представляет пару языков - русский и путунхуа;
2) доступен в Интернете;
3) обладает удобной для юзера системой поиска;
4) размечен грамматически.

Известно лишь об одном аналоге проекта, разрабатываемом сейчас в Пекине.
2020.09.10
ЛС Ответить
2
>>>
2020.09.11China Red Devil 便困, в чем цель этого проекта?
Не хочу никого пугать, но похожие проекты, которые я видел, все оказались не очень жизнеспособны. ангел

Вы задали очень хороший вопрос.

Начнем с того, а что же такое вообще корпус? Об этом нам расскажет сотрудник института русского языка им. В.В. Виноградова, доктор филологических наук Владимир Александрович Плунгян.


Идем дальше. Что такое параллельный корпус? см. Parallel Corpora & Alignment

Параллельный корпус — это частный случай лингвистического корпуса, одного из главных инструментов, которыми пользуются специалисты по языкознанию в XXI в. Как и основная часть лингвистических корпусов, параллельный корпус обычно снабжается т.н. метаинформацией (информацией о каждом тексте — когда он был создан, кем, какого он объема и т.д.), а также разметкой (каждому слову приписана его начальная форма, грамматическая информация и т.д.).

Кстати, один из самых древних параллельных корпусов, выровненных еще в XIII-XVI вв. по стихам — это Переводы Библии.

То есть, параллельный корпус — это собрание текстов сразу на двух языках. Важный элемент разметки параллельных корпусов — выравнивание: каждому предложению (как минимум, абзацу) на языке Х соответствует предложение на языке Y.

Таким образом, отвечая на ваш вопрос, можно предположить, что цель проекта (я не являюсь участником) - это создание полезного (благодаря выравниванию) инструмента сразу для нескольких категорий пользователей:

а) изучающие иностранный язык и преподаватели иностранного языка (слова и выражения теперь можно искать не по словарю, а в контекстах, и в этих же контекстах смотреть сочетаемость слов на другом языке);
б) переводчики (т.к. параллельный корпус — это большая база данных всех находок, которые были придуманы предыдущими переводчиками для тех или иных выражений и приемов);
в) специалисты в статистическом или нейросетевом NLP — в последнее десятилетие почти все серьезные компании отказались от разработки правиловых переводчиков (т.е. таких, которые основаны на загруженном туда словаре и наборе конкретных правил для перевода). Сейчас необходимы большие данные на двух языках, где каждому предложению (или более мелкому сегменту) будут даны соответствия. Безусловно, параллельный корпус для программистов отличается по оформлению (там не всегда нужна разметка и метаинформация);
г) лингвисты и переводоведы (на основе таких баз данных можно сделать много выводов в сфере сравнительного изучения грамматики, семантики и лексики).

Что же до жизнеспособности, то важно понимать, что Русско-китайский параллельный корпус, о котором идет речь - это прежде всего часть Национального корпуса русского языка, жизнеспособность которого не вызывает никаких сомнений
2020.09.11
ЛС Ответить
3
>>>
А и впрямь, все работает. 13

В это время семибатюшная гадюка со средним образованием сидела за мусорным ящиком на бидоне и тосковала.
此刻受过中等教育,有七个爹的杂种正坐在垃圾箱后面的油桶上发愁呢。
Ваша, например, маленькая и в теле,  – значит преставилась.
比如说您的那位,个子矮小可不瘦,就该说, ‘去世了'
А, например, которая покрупнее да похудее – та, считается, богу душу отдает…
说,身材髙大些的,而且比较瘦,那就该说 ‘归天了'
Вы, считается, ежели, не дай бог, помрете, что в ящик сыграли.
您要是死了,但愿不会如此,就该说, ‘入棺作古'了
А который человек торговый, бывшей купеческой гильдии, тот, значит, приказал долго жить.
如果死的是个生意人,是个原来的等级商人,就该说他 ‘与世长辞'了。
А если кто чином поменьше, дворник, например, или кто из крестьян, про того говорят: перекинулся или ноги протянул.
至于地位较低的,比如看门的死了,或是个庄稼汉,那么就该说: ‘过去啦',或是 ‘伸了腿'  
железнодорожные кондуктора или из начальства кто, то считается, что «дуба дают».
特别有权势的人,像列车长,或是个什么长官,那就该说 ‘寿终正寝'了
Скажут: «гигнулся Безенчук».
他们会说: ‘别赞丘克完蛋了'

Мне понравилось. 21
Дьяволы не сдаются.
2020.09.12
ЛС Ответить