БКРС для Pleco

бкрс

2013.12.22alexamur можете рассказать как считается ваша статистика?

Слова без пиньиня ("_")
Там где пустое место надо заменить на _

evkon

alexamur, большое дело для словаря делаете!

alexamur

evkon, спасибо за поддержку, я бы ещё что-нибудь сделал для словаря в плане программирования если бы мне подсказали, где такая помощь требуется.

evkon

alexamur, по мелочи: можно сделать списки к статьям с примерами без перевода; скрипт для автозамены ' ;' на ';', лишний пробел между китайскими знаками в словарных статьях - пусть БКРС пройдётся им на сервере.

бкрс

2013.12.23alexamur спасибо за поддержку, я бы ещё что-нибудь сделал для словаря в плане программирования если бы мне подсказали, где такая помощь требуется.

Была идея вывести проект в опенсорс (где-то тема на форуме есть), но она быстро отпала, когда стало понятно, что для поддержания этого требуются много усилий, особенно в самом начале, с неясной выгодой.

Сделайте максимальной удобной конвертацию в то же Pleco, чтобы по нему не было вопросов. Это уже будет очень много.
Может даже к нему простенькую оболочку выбора файла на Tkinter прилепить.

Для stardicta не хватает скрипта. Хотя к нему zrv1982 периодически делает, но скрипт не помешал бы, т.к. его многие на айфоне используют.

alexamur

бкрс, гуи пока планов нет делать, но поудобнее работу с ошибками в пиньине потихоньку делаю. На этот раз в файле BKRS_bad_words.html поля можно сортировать.

Вот сценарий по исправлению ошибок. Открываем файл BKRS_bad_words.html сортируем по полю "Pinyin Not match", затем открываем log_file.txt смотрим слова из "Top 100 error hanzi". Находим их в BKRS_bad_words.html и начинаем исправлять. Естественно исправлять нужно проверив произношение в других авторитетных источниках. Можно не возится со скриптом а, взять готовые файлы логов и ошибок для бд_бкрс от 6 января тут (580 кб),а тут можно подробней прочитать про BKRS_bad_words.html, а также скачать скрипт и самому обработать базу, или допилить скрипт под свои нужды.

Сейчас в файле логов (в конце файла log_file.txt) можно посмотреть самые частые иероглифы и самые частые иероглифы для которых скрипт не нашел соответствующего произношения, например для базы от 6 января: Всего иероглифов - 1 076 343 из них уникальных иероглифов 13 945 из них 4 854 иероглифа встречается всего один раз, напомню что эти данные на основе слов у которых есть русский перевод.

бкрс

alexamur, вы с каким иситочником сверяете. Те ошибки, что у вас в логах?

alexamur

2014.01.07бкрс alexamur, вы с каким иситочником сверяете. Те ошибки, что у вас в логах?

В смысле, откуда произношение для иероглифов беру?

бкрс

alexamur, ну в той ссылке, где список ошибок, как вы их находите? С чем-то сравниваете?

alexamur

бкрс, пиньин очищается от лишних символов, затем для каждого иероглифа берется список возможных чтений, затем пытаемся найти в начале строки пиньина одно из этих чтений, если нашли, то удаляем его и переходим к следующему иероглифу. Возможные чтения иероглифов берутся из библиотеки cjklib, а они написали что они данные берут отсюда:
kXHC1983: Xiàndài Hànyǔ Cídiǎn (现代汉语词典). Shāngwù Yìnshūguǎn, Beijing,
kHanyuPinlu: Xiàndài Hànyǔ Pínlǜ Cídiǎn (現代漢語頻率詞典). 北京語言學院語言教學研究所編著, First edition 1986/6, 2nd printing 1990/4, ISBN 7-5619-0094-5.
kHanyuPinyin: Hànyǔ Dà Zìdiǎn (漢語大字典). 許力以主任，徐中舒主編，（漢語大字典工作委員會）。武漢：四川辭書出版社，湖北辭書出版社, 1986-1990. ISBN: 7-5403-0030-2/H.16.

Также возможные чтения берутся из файла Unihan_Readings.txt отсюда http://ftp.ftp.unicode.org/Public/UNIDATA/Unihan.zip. Соответственно если не смогли для всех иероглифов в пинине найти произношение, то считаем такое слово плохим и записываем его.