1 2 3 >>> + 🔎
1
Для всех тех, кто еще не знает, для тех кто знал, но забыл, ну и, конечно, для тех, кто знал, но делал вид что не знает:

Русско-китайский параллельный корпус НКРЯ

Цитата:Объем параллельного корпуса - больше 2,3 миллиона слов. Он состоит из 30 художественных текстов русских и китайских авторов XIX-XXI вв., среди которых Лю Чжэньюнь 劉震云, Ф.М. Достоевский, Л.Е. Улицкая, Лу Синь 劉歆 и другие.

Сегодня у Корпуса есть русский и английский интерфейс; идет работа над созданием китайской версии сайта.

Сейчас проект — единственный разрабатываемый в России параллельный корпус, обладающий сразу четырьмя полезными свойствами:

1) представляет пару языков - русский и путунхуа;
2) доступен в Интернете;
3) обладает удобной для юзера системой поиска;
4) размечен грамматически.

Известно лишь об одном аналоге проекта, разрабатываемом сейчас в Пекине.
2020.09.10
ЛС Ответить
2
2020.09.10便困 Для всех тех, кто еще не знает, для тех кто знал, но забыл, ну и, конечно, для тех, кто знал, но делал вид что не знает:
便困, в чем цель этого проекта?
Не хочу никого пугать, но похожие проекты, которые я видел, все оказались не очень жизнеспособны. ангел
Дьяволы не сдаются.
2020.09.11
ЛС Ответить
3
2020.09.11China Red Devil 便困, в чем цель этого проекта?
Не хочу никого пугать, но похожие проекты, которые я видел, все оказались не очень жизнеспособны. ангел

Вы задали очень хороший вопрос.

Начнем с того, а что же такое вообще корпус? Об этом нам расскажет сотрудник института русского языка им. В.В. Виноградова, доктор филологических наук Владимир Александрович Плунгян.


Идем дальше. Что такое параллельный корпус? см. Parallel Corpora & Alignment

Параллельный корпус — это частный случай лингвистического корпуса, одного из главных инструментов, которыми пользуются специалисты по языкознанию в XXI в. Как и основная часть лингвистических корпусов, параллельный корпус обычно снабжается т.н. метаинформацией (информацией о каждом тексте — когда он был создан, кем, какого он объема и т.д.), а также разметкой (каждому слову приписана его начальная форма, грамматическая информация и т.д.).

Кстати, один из самых древних параллельных корпусов, выровненных еще в XIII-XVI вв. по стихам — это Переводы Библии.

То есть, параллельный корпус — это собрание текстов сразу на двух языках. Важный элемент разметки параллельных корпусов — выравнивание: каждому предложению (как минимум, абзацу) на языке Х соответствует предложение на языке Y.

Таким образом, отвечая на ваш вопрос, можно предположить, что цель проекта (я не являюсь участником) - это создание полезного (благодаря выравниванию) инструмента сразу для нескольких категорий пользователей:

а) изучающие иностранный язык и преподаватели иностранного языка (слова и выражения теперь можно искать не по словарю, а в контекстах, и в этих же контекстах смотреть сочетаемость слов на другом языке);
б) переводчики (т.к. параллельный корпус — это большая база данных всех находок, которые были придуманы предыдущими переводчиками для тех или иных выражений и приемов);
в) специалисты в статистическом или нейросетевом NLP — в последнее десятилетие почти все серьезные компании отказались от разработки правиловых переводчиков (т.е. таких, которые основаны на загруженном туда словаре и наборе конкретных правил для перевода). Сейчас необходимы большие данные на двух языках, где каждому предложению (или более мелкому сегменту) будут даны соответствия. Безусловно, параллельный корпус для программистов отличается по оформлению (там не всегда нужна разметка и метаинформация);
г) лингвисты и переводоведы (на основе таких баз данных можно сделать много выводов в сфере сравнительного изучения грамматики, семантики и лексики).

Что же до жизнеспособности, то важно понимать, что Русско-китайский параллельный корпус, о котором идет речь - это прежде всего часть Национального корпуса русского языка, жизнеспособность которого не вызывает никаких сомнений
2020.09.11
ЛС Ответить
4
2020.09.11便困 Начнем с того, а что же такое вообще корпус?
Cпасибо кэп!
Искреннее спасибо, что начали хотя бы не с того, что же такое вообще алфавит.  40
Цитата:Кстати, один из самых древних параллельных корпусов, выровненных еще в XIII-XVI вв. по стихам — это Переводы Библии. То есть, параллельный корпус — это собрание текстов сразу на двух языках.
текст Библии имеет вполне определенный объем и конечен, и соответственно параллельный корпус переводов Библии также конечен.
Да, можно хорошенько поработать и составить  параллельный корпус переводов Библии на другие языки.
Вы предлагаете немного другое: параллельный корпус вообще всего, что написано на китайском с переводом на русский. Это занятие бесконечное

Цитата:Что же до жизнеспособности, то важно понимать, что Русско-китайский параллельный корпус, о котором идет речь - это прежде всего часть Национального корпуса русского языка, жизнеспособность которого не вызывает никаких сомнений
Что же до жизнеспособности, то важно понимать, что никаких упоминаний на сайте Национального корпуса русского языка о вас и вашем проекте обнаружить не удалось.  40
2020.09.11
ЛС Ответить
5
2020.09.11China Red Devil Cпасибо кэп! Искреннее спасибо, что начали хотя бы не с того, что такое алфавит.  40
Начнем с того, что вы попытаетесь понять, в чем проблема:
она в том, что текст Библии имеет вполне определенный обьем и конечен, и соответственно параллельный корпус переводов Библии так же конечен.
Да, можно хорошенько поработать и составить  параллельный корпус переводов Библии на другие яыки.
А вы предлагаете совсем другое: параллельный корпус вообще всего, что написано на китайском с переводом на русский, вот отсюдова и аж до хрен пойми куда. Конечно, такой постановкой проблемы можно вызвать экстаз у провинциальных первокурсниц, но маленькая проблема в том, что на втором курсе большинство уже поймет, что здесь что-то не так, а на третьем вас просто пошлют.

И конечно же, самый важный элемент создания полезного инструмента: создатели инструмента будут работать на дядю бесплатно. Idea
Что же до жизнеспособности, товажно понимать, что никаких упоминаний на сайте Национального корпуса русского языка о вас и вашем проекте обнаружить не удалось. 40
а я ничего не пропагандирую. Мне все равно. А вас я очень уважаю
2020.09.11
ЛС Ответить
6
China Red Devil, как вы относитесь к корпусной лингвистике?
Может быть, вы бы хотели по русски об этом поговорить?
2020.09.11
ЛС Ответить
7
2020.09.11China Red Devil Cпасибо кэп! Искреннее спасибо, что начали хотя бы не с того, что же такое вообще алфавит.

Служу России!

Цитата:текст Библии имеет вполне определенный объем и конечен, и соответственно параллельный корпус переводов Библии также конечен.
Да, можно хорошенько поработать и составить  параллельный корпус переводов Библии на другие языки.
Вы предлагаете немного другое: параллельный корпус вообще всего, что написано на китайском с переводом на русский. Это занятие бесконечное


Цитата:Что же до жизнеспособности, то важно понимать, что никаких упоминаний на сайте Национального корпуса русского языка о вас и вашем проекте обнаружить не удалось.  40

Виноват, товарищ Сталин. Вы правильно делаете, что хочете меня вывести на чистую воду, ибо вода огненная порой играет с нами злую шутку...

給, как говорится, 您direct link: https://ruscorpora.ru/new/search-para-zh.html
2020.09.12
ЛС Ответить
8
2020.09.11China Red Devil Вы предлагаете немного другое: параллельный корпус вообще всего, что написано на китайском с переводом на русский. Это занятие бесконечное
С точностью до наоборот - к корпусу "вообще всего, что написано на" русском (т.е НКРЯ) ищутся и сопоставляются параллельные тексты на китайском. Там не то, что бесконечность - а даже и много-то не будет.
2020.09.12
ЛС Ответить
9
便困, каким образом в русско-китайский параллельный корпус НКРЯ сможет попасть, ну, скажем,"Сон в красном тереме"?
2020.09.12
ЛС Ответить
10
Цитата:2) доступен в Интернете;

Так он сейчас доступен или это что-то где-то? Не смог ссылку найти.
2020.09.12
ЛС Ответить
1 2 3 >>> + 🔎