2013.12.22alexamur можете рассказать как считается ваша статистика?Слова без пиньиня ("_")
Там где пустое место надо заменить на _
2013.12.22alexamur можете рассказать как считается ваша статистика?Слова без пиньиня ("_") Там где пустое место надо заменить на _ 2013.12.22
evkon, спасибо за поддержку, я бы ещё что-нибудь сделал для словаря в плане программирования если бы мне подсказали, где такая помощь требуется.
2013.12.23
alexamur, по мелочи: можно сделать списки к статьям с примерами без перевода; скрипт для автозамены ' ;' на ';', лишний пробел между китайскими знаками в словарных статьях - пусть БКРС пройдётся им на сервере.
2013.12.23
2013.12.23alexamur спасибо за поддержку, я бы ещё что-нибудь сделал для словаря в плане программирования если бы мне подсказали, где такая помощь требуется.Была идея вывести проект в опенсорс (где-то тема на форуме есть), но она быстро отпала, когда стало понятно, что для поддержания этого требуются много усилий, особенно в самом начале, с неясной выгодой. Сделайте максимальной удобной конвертацию в то же Pleco, чтобы по нему не было вопросов. Это уже будет очень много. Может даже к нему простенькую оболочку выбора файла на Tkinter прилепить. Для stardicta не хватает скрипта. Хотя к нему zrv1982 периодически делает, но скрипт не помешал бы, т.к. его многие на айфоне используют. 2013.12.25
бкрс, гуи пока планов нет делать, но поудобнее работу с ошибками в пиньине потихоньку делаю. На этот раз в файле BKRS_bad_words.html поля можно сортировать.
Вот сценарий по исправлению ошибок. Открываем файл BKRS_bad_words.html сортируем по полю "Pinyin Not match", затем открываем log_file.txt смотрим слова из "Top 100 error hanzi". Находим их в BKRS_bad_words.html и начинаем исправлять. Естественно исправлять нужно проверив произношение в других авторитетных источниках. Можно не возится со скриптом а, взять готовые файлы логов и ошибок для бд_бкрс от 6 января тут (580 кб),а тут можно подробней прочитать про BKRS_bad_words.html, а также скачать скрипт и самому обработать базу, или допилить скрипт под свои нужды. Сейчас в файле логов (в конце файла log_file.txt) можно посмотреть самые частые иероглифы и самые частые иероглифы для которых скрипт не нашел соответствующего произношения, например для базы от 6 января: Всего иероглифов - 1 076 343 из них уникальных иероглифов 13 945 из них 4 854 иероглифа встречается всего один раз, напомню что эти данные на основе слов у которых есть русский перевод. 2014.01.06
2014.01.07бкрс alexamur, вы с каким иситочником сверяете. Те ошибки, что у вас в логах?В смысле, откуда произношение для иероглифов беру? 2014.01.07
alexamur, ну в той ссылке, где список ошибок, как вы их находите? С чем-то сравниваете?
2014.01.07
бкрс, пиньин очищается от лишних символов, затем для каждого иероглифа берется список возможных чтений, затем пытаемся найти в начале строки пиньина одно из этих чтений, если нашли, то удаляем его и переходим к следующему иероглифу. Возможные чтения иероглифов берутся из библиотеки cjklib, а они написали что они данные берут отсюда:
kXHC1983: Xiàndài Hànyǔ Cídiǎn (现代汉语词典). Shāngwù Yìnshūguǎn, Beijing, kHanyuPinlu: Xiàndài Hànyǔ Pínlǜ Cídiǎn (現代漢語頻率詞典). 北京語言學院語言教學研究所編著, First edition 1986/6, 2nd printing 1990/4, ISBN 7-5619-0094-5. kHanyuPinyin: Hànyǔ Dà Zìdiǎn (漢語大字典). 許力以主任,徐中舒主編,(漢語大字典工作委員會)。 武漢:四川辭書出版社,湖北辭書出版社, 1986-1990. ISBN: 7-5403-0030-2/H.16. Также возможные чтения берутся из файла Unihan_Readings.txt отсюда http://ftp.ftp.unicode.org/Public/UNIDATA/Unihan.zip. Соответственно если не смогли для всех иероглифов в пинине найти произношение, то считаем такое слово плохим и записываем его. 2014.01.07
|