Частотный словарь

2016.12.15Ветер Это нереально сложная задача...

Которую обязательно нужно выполнить. Можно хотя бы начать делать. А если не начать, то точно не получится. Как говориться 愚公移山, знаете эту историю?

barss1986

Ученик, частотные списки - зло. Понимаешь. какой же ты до сих пор лох в китайском.... (я о себе), лучше б вообще не заходил в топик

Ветер

2016.12.16Разрушение Которую обязательно нужно выполнить. Можно хотя бы начать делать. А если не начать, то точно не получится. Как говориться 愚公移山, знаете эту историю?

Про обязательно выполнить - это все красивые слова.
Если есть список готовый на китайском (кстати, интересно, вполне есть что-то) то можно попытаться его прикрутить к словарю. Но самому делать - это действительно нереально. Или надо словарь закрывать и только этим заниматься
Можно составить наиболее употребимые списки/пары. Но не более того. Или в 10000 самых частотных слов.
Тут проблема еще в том, что есть лексика "не книжная/не разговорная".
Вот 以此 это книжная лексика однозначно.
吃饭 - разговорная
А вот 根据？按照？ это куда? Не настолько разговорная, но и не совсем книжная. И таких слов 80-90%.

А вообще - это все легко самостоятельно по примерам определяется.
Если в пример один вэньянь/письменная речь и всякие витеватые выражения - значит и слово, с вероятностью 80-90% относится к книжной лексике.

сарма

2016.12.15Ученик Ещё вопрос к модераторам. Было бы очень круто, если бы на странице каждого слова рядом, в скобках стояла бы цифра, соответствующая его номеру в частотном словаре бкрс.
Например сейчас 在 - третий в списке и при его открытии можно было бы рядом увидеть
在 (3). Все могли бы узнать, что это слово топ-3 внутриБКРСного словаря. Это помогло бы осознать нужен тебе этот иероглиф или слово для практики или нет. Например для кого-то слово "насос" и "дизельгенератор" являются повседневными, а для кого-то просто встретились во время перевода текста. А так человек будет знать, что это слово входит в топ-1000 употребимых слов и значит надо бы знать

В какой-то момент 在 (3), а может, 5 или 10. И все эти цифры и не точны , и будут колебаться во времени.
Всю эту цифирь нет смысла перемешивать с переводом слов.
Частотные словари лучше делать отдельно, как например,
О. Н. Ляшевская, С. А. Шаров
НОВЫЙ ЧАСТОТНЫЙ СЛОВАРЬ РУССКОЙ ЛЕКСИКИ
http://dict.ruslang.ru/freq.php?act=show&dic=freq_...%20%F0%E5%F7%E8

2016.12.16Ветер Но самому делать - это действительно нереально. Или надо словарь закрывать и только этим заниматься

Как я понимаю, тут же есть сообщество. Постепенно, мало-помалу, можно начать, потом посмотреть что получится.

2016.12.16Ветер Тут проблема еще в том, что есть лексика "не книжная/не разговорная".

Ну это просто решается. Несколько вариантов на выбор. Коую, книжная, и там и там, спец. терминология и т.д. Или просто шкалу от 0 до 10 прикрутить.

2016.12.16Ветер А вообще - это все легко самостоятельно по примерам определяется.

Не всегда это легко. Особенно в первые годы изучения языка.

Ветер

2016.12.16Мироощущение Как я понимаю, тут же есть сообщество. Постепенно, мало-помалу, можно начать, потом посмотреть что получится.

Ну это просто решается. Несколько вариантов на выбор. Коую, книжная, и там и там, спец. терминология и т.д. Или просто шкалу от 0 до 10 прикрутить.

Не всегда это легко. Особенно в первые годы изучения языка.

Вы представляете, сколько будет разногласий по этой шкале? Должны быть четкие критерии, хотя бы. Ну там вхождение в определенный стиль речи, посчитанное по корпусу китайского языка.

Пока мы будем все это делать, пройдет лет 5, к этому моменту все желающие уже научатся распознавать и так.

Сама идеи не плохая, но вот реализация ее здесь вручную выглядит сомнительно.
Учитывая, что загнулись прочие "фишки", не связанные напрямую с редактированием словаря.

Я бы предложил упростить проблему.
Определите для себя "книжные иероглифы".
此悉至以之 итд
И все слова с ними, будут с вероятностью 80-90% из книжной лексики

Ученик

Уважаемые форумчане. Поймите вы наконец, что частотный словарь полезен в любом случае. Нет ничего страшного, если если очень простое слово будет находиться за 1000 место, а какой-нибудь насос - на первом. Это будет показывать ,что это слово ОЧЕНЬ часто используется и следовательно его НАДО знать. Даже если ты занимаешься фармацевтикой и наоборот. Частотный словарь показывает динамику языка и он не бывает статичным. Он ДОЛЖЕН постоянно меняться. Это нормально. Неужели сложно поставить счётчик запросов и (или) открытий слов в словаре? Тяжело писать на странице слова на каком месте он находится - ладно, но общий постоянно обновляющийся словарь сделать надо. Обязательно. Тенденции языка надо улавливать. Частотные словари есть у всех языков. Ими пользуются и японисты и арабисты. У меня есть и частотный словарь русского языка. Видел португальский. И люди пользуются. А мы до сих пор ничего не имеем. В стране нет единой системы подготовки к HSK. Так, отдельные энтузиасты. До сих пор нет официального частотного словаря. Нет русскоязычного - ладно. Но мы даже англоязычный не имеем. Его нельзя ни скачать, ни купить по доступной цене. Для чего вообще создавался БКРС, если сообщество просто пользуется онлайн словарём, что-то для себя делает и никак не развивается?

Geologist

бкрс,

оставляя в стороне вопрос о необходимости оценки частоты встречаемости, есть простой способ получить разумную оценку этого параметра - это частота встречаемости слова (иероглифа, морфемы) в словаре БКРС.
Например 轴承 (подшипник) встречается в БКРС не менее 1000 раз (грубая оценка поиском по маске *轴承 - вам наверняка несложно подсчитать точное значение)

бкрс

Цитата:частота встречаемости слова (иероглифа, морфемы) в словаре БКРС

Это можно, но т.к. тут в большинстве технические сателлиты, именно их большее число и получится.

А есть частотные списки по n-граммам? Например, интересно посмотреть частотные списки для комбинаций из четырех иероглифов.