Частотный словарь

бкрс

Это можно отфильтровать из любого частотного списка

Если речь про ченьюи, то легко ищется - http://chengyu.kxue.com/help/510837.html

Рейхсканцлер

Поднимаю старую тему.

Решил воспользоваться bkrs-списком 50000+ слов по частотности https://bkrs.info/words_frequency.php. И нашел разные странности:

1) Попадается много дубликатов - например,
啊 встречается пять раз - позиции 1176, 5517, 16104, 18303, 28712
和 тоже встречается пять раз - на позициях 373, 20829, 24077, 28856, 37588
и т.д., более 300 иероглифов повторяются несколько раз.

2) При этом в этом списке отсутствуют такие вещи как 打电话, 不客气, 遇到, 大象, 爬山, 感兴趣, 摔倒, 登机牌 и еще 50 таких же слов, которые входят чуть ли не в начальные уровни HSK. Хотелось бы это конечно списать на то, что эти слова в письменной речи не употребляются (а bkrs-список составлен видимо из письменных источников), но как-то странно.

Я не призываю что-то менять, просто имейте в виду, если кто захочет воспользоваться.

werewitt

2018.01.10Рейхсканцлер Поднимаю старую тему.

Решил воспользоваться bkrs-списком 50000+ слов по частотности https://bkrs.info/words_frequency.php. И нашел разные странности:

...
Хотелось бы это конечно списать на то, что эти слова в письменной речи не употребляются (а bkrs-список составлен видимо из письменных источников), но как-то странно.

Я не призываю что-то менять, просто имейте в виду, если кто захочет воспользоваться.

более того, у того же Jun Da в списке bigram frequency (news) то же 遇到 на ~1400 месте. И, кстати, "официальный источник" бкрс-овского списка вымер.

бкрс

2018.01.10Рейхсканцлер Я не призываю что-то менять, просто имейте в виду, если кто захочет воспользоваться.

В той теме уже обмусоливолось, что частотный список это какой-то сферы, а не вообще. Тот, который официальный это официальные СМИ, со всем вытекающим. Дублирование - вроде что-то с конвертацией было, т.к. они при подсчете не исправляли ошибки.

Их же много списков, вбейте 现代汉语常用词表.

В словаре используется совсем другой - составленный из разговорной и официальной.
А та ссылка что у вас давно удалена.

бкрс

Позавчера, кстати, добавил расстановку по частотности - https://bkrs.info/frequency.php , уже не раз нужно было отфильтровать частые иероглифы от редких.

Рейхсканцлер

Спасибо, полезно.

А можно на основе этой самой поправленной частотности https://bkrs.info/frequency.php
1) обновить заодно и список слов в https://bkrs.info/words_frequency.php (вернее, сделать так, чтобы он был всегда свежим - согласно последним правкам словаря).
2) сделать где-то там же ссылку типа "скачать список в виде файла excel/csv", позволяющую сразу скачать эти самые тысяч 50 слов со столбцом частотности. А то из веб страниц сайта по частям вытаскивать и потом грузить в свой софт или базу не очень удобно.

бкрс

2018.01.11Рейхсканцлер А можно на основе этой самой поправленной частотности https://bkrs.info/frequency.php

Так есть же готовые списки везде. В той теме, вот например (вроде на основе его и делался, с добавлением того официального, т.к. провинций и т.п. нет) - https://yadi.sk/i/Zz_5bHOuVvGoe
На гитхабе первой ссылкой в гугле _https://gist.github.com/indiejoseph/eae09c673460aa0b56db
Из киношек очень живой, но нужно английский вырезать - http://corpus.leeds.ac.uk/frqc/internet-zh.num

https://bkrs.info/words_frequency.php уже не используется, надо только подправить, что бы не путать кто через форум зайдёт.

Рейхсканцлер

2018.01.11бкрс Так есть же готовые списки везде. В той теме, вот например (вроде на основе его и делался, с добавлением того официального, т.к. провинций и т.п. нет) -

Понятно. Первый и третий списки я видел и использовал. Я просто заметил существенный разброс слов в таких списках и искал некий эталонный ~~православный~~ bkrs-овский список для самописного софта типа "составить слова из иероглифов". Фраза "источник - официальный список министерства образования Китая" звучала обнадеживающе

.

Но раз никаких общепринятых стандартов нет, то ладно.

бкрс

Рейхсканцлер, эталонный я тоже не нашёл, поэтому взял наиболее хороший на мой взгляд и влил туда официального. В итоге получилось много слов, но с некоторыми перекосами (в той теме описывал), но для использования это не критично.

Да, суть в том, что "главного единственного списка" не существует, т.к. он полностью зависит от материалов по которым собирается. Для образовательных целей официальный явно не очень, язык сми это та ещё дубовщина.
Любой из нас может свой список сделать, программка только нужна, которая по словам делит (например, не слишком большой словарик, тысяч на 100), а там только тексты закидывай и будет список.

Берите который на яндекс диске. Свой двойной могу скинуть, но не уверен, что он будет лучше. На гитхабе надо разобраться что за список.

Рейхсканцлер

2018.01.11бкрс Берите который на яндекс диске. Свой двойной могу скинуть, но не уверен, что он будет лучше. На гитхабе надо разобраться что за список.

Со списком на яндекс диске тоже свои небольшие проблемы - там есть совершенно кривые слова. Например, номер 34503 это какое-то "нн", 44107 какое-то "ии", ну и другой такой же мусор. В нем также нет 30 слов из HSK (например, 中文).

Так что я сделал свой список на основе того, который был на https://bkrs.info/words_frequency.php , убрал там дубликаты и пополнил его словами из HSK.

P.S: Скриптик для составления слов в итоге лежит тут http://zoracle.ru/chinese/findwords.html. В учебных целях сделана возможность поиска как в рамках словаря HSK, так и по большой базе 25 тыс слов. При необходимости можно подправить под стиль bkrs и тоже куда-то выложить, или сделать похожее на таких же идеях - скорость работы JS себя оправдала, возиться с базой данных не пришлось.