Страницы (23): « Предыдущая 1 ... 4 5 6 ... 23 Следующая » Переход на страницу  +
41
2013.12.22alexamur можете рассказать как считается ваша статистика?
Слова без пиньиня ("_")
Там где пустое место надо заменить на _
2013.12.22
Ответить
42
alexamur, большое дело для словаря делаете! 58
2013.12.23
Ответить
43
evkon, спасибо за поддержку, я бы ещё что-нибудь сделал для словаря в плане программирования если бы мне подсказали, где такая помощь требуется.
2013.12.23
Ответить
44
alexamur, по мелочи: можно сделать списки к статьям с примерами без перевода; скрипт для автозамены ' ;' на ';', лишний пробел между китайскими знаками в словарных статьях - пусть БКРС пройдётся им на сервере.
2013.12.23
Ответить
45
2013.12.23alexamur спасибо за поддержку, я бы ещё что-нибудь сделал для словаря в плане программирования если бы мне подсказали, где такая помощь требуется.
Была идея вывести проект в опенсорс (где-то тема на форуме есть), но она быстро отпала, когда стало понятно, что для поддержания этого требуются много усилий, особенно в самом начале, с неясной выгодой.

Сделайте максимальной удобной конвертацию в то же Pleco, чтобы по нему не было вопросов. Это уже будет очень много.
Может даже к нему простенькую оболочку выбора файла на Tkinter прилепить.

Для stardicta не хватает скрипта. Хотя к нему zrv1982 периодически делает, но скрипт не помешал бы, т.к. его многие на айфоне используют.
2013.12.25
Ответить
46
бкрс, гуи пока планов нет делать, но поудобнее работу с ошибками в пиньине потихоньку делаю. На этот раз в файле BKRS_bad_words.html поля можно сортировать.

Вот сценарий по исправлению ошибок. Открываем файл BKRS_bad_words.html сортируем по полю "Pinyin Not match", затем открываем log_file.txt смотрим слова из "Top 100 error hanzi". Находим их в BKRS_bad_words.html и начинаем исправлять. Естественно исправлять нужно проверив произношение в других авторитетных источниках. Можно не возится со скриптом а, взять готовые файлы логов и ошибок для бд_бкрс от 6 января тут (580 кб),а тут можно подробней прочитать про BKRS_bad_words.html, а также скачать скрипт и самому обработать базу, или допилить скрипт под свои нужды.

Сейчас в файле логов (в конце файла log_file.txt) можно посмотреть самые частые иероглифы и самые частые иероглифы для которых скрипт не нашел соответствующего произношения, например для базы от 6 января: Всего иероглифов - 1 076 343 из них уникальных иероглифов 13 945 из них 4 854 иероглифа встречается всего один раз, напомню что эти данные на основе слов у которых есть русский перевод.
2014.01.06
Ответить
47
alexamur, вы с каким иситочником сверяете. Те ошибки, что у вас в логах?
2014.01.07
Ответить
48
2014.01.07бкрс alexamur, вы с каким иситочником сверяете. Те ошибки, что у вас в логах?
В смысле, откуда произношение для иероглифов беру?
2014.01.07
Ответить
49
alexamur, ну в той ссылке, где список ошибок, как вы их находите? С чем-то сравниваете?
2014.01.07
Ответить
50
бкрс, пиньин очищается от лишних символов, затем для каждого иероглифа берется список возможных чтений, затем пытаемся найти в начале строки пиньина одно из этих чтений, если нашли, то удаляем его и переходим к следующему иероглифу. Возможные чтения иероглифов берутся из библиотеки cjklib, а они написали что они данные берут отсюда:
kXHC1983: Xiàndài Hànyǔ Cídiǎn (现代汉语词典). Shāngwù Yìnshūguǎn, Beijing,
kHanyuPinlu: Xiàndài Hànyǔ Pínlǜ Cídiǎn (現代漢語頻率詞典). 北京語言學院語言教學研究所編著, First edition 1986/6, 2nd printing 1990/4, ISBN 7-5619-0094-5.
kHanyuPinyin: Hànyǔ Dà Zìdiǎn (漢語大字典). 許力以主任,徐中舒主編,(漢語大字典工作委員會)。 武漢:四川辭書出版社,湖北辭書出版社, 1986-1990. ISBN: 7-5403-0030-2/H.16.

Также возможные чтения берутся из файла Unihan_Readings.txt отсюда http://ftp.ftp.unicode.org/Public/UNIDATA/Unihan.zip. Соответственно если не смогли для всех иероглифов в пинине найти произношение, то считаем такое слово плохим и записываем его.
2014.01.07
Ответить
Страницы (23): « Предыдущая 1 ... 4 5 6 ... 23 Следующая » Переход на страницу  +