Возникла такая проблема :
В БКРС есть слово
饮冰茹蘖
yǐnbīngrúniè
пить ледяную воду и питаться корнями дерева (обр. о тяжёлой, безрадостной .жизни, особенно одинокой женщины)
и есть такое слово , насколько я понял, добавленное из сателлитов -
饮冰茹櫱
_
[m1]见“[ref]饮冰食櫱[/ref]”。
эти два слова абсолютно идентичны , из-за того , что 櫱 используется вместо 蘖
https://bkrs.info/slovo.php?ch=蘖+櫱
эту особенность я выяснил , используя скрипт , который любезно предоставил мне бкрс, для добавления традиционных заголовков к словарю
Всего мне компилятор выдал - Ошибок: 3412.
1) то есть , при переводе упрощённых в традиционные иероглифы , 3412 карточек используют похожие иероглифы , которые могут быть заменимы.
2) и... почему то имеются в наличии как на самом сайте , так и в оффлайн версии как традиционные так и упрощённые варианты написания слов
пример1
упрощённый вариант
https://bkrs.info/slovo.php?ch=水冷却
традиционный вариант
https://bkrs.info/slovo.php?ch=水冷卻
пример2
упрощённый вариант
https://bkrs.info/slovo.php?ch=一伙
традиционный вариант
https://bkrs.info/slovo.php?ch=一夥
а сам словарь вроде бы должен состоять только из упрощённых форм иероглифов
это можно как-нибудь вылечить в автоматическом режиме ? или только вручную всё править ?
2011.11.25eksodus упрощённый вариант
https://bkrs.info/slovo.php?ch=水冷却
традиционный вариант
https://bkrs.info/slovo.php?ch=水冷卻
Слова 水冷卻 нет, оно просто автоматически перенаправляется на 水冷却.
Цитата:упрощённый вариант
https://bkrs.info/slovo.php?ch=一伙
традиционный вариант
https://bkrs.info/slovo.php?ch=一夥
夥 -> 伙 тут какой-то сложный случай, только часть иероглифа соответствует традиционный-упрощенный, а другая часть разные.
Нужно отдельно рассматривать стоит ли их совмещать.
Цитата:Всего мне компилятор выдал - Ошибок: 3412.
Это наверное, из-за того, что в словаре есть одиночные традиционные иероглифы из юнихана. Лучший вариант удалять их перед конвертацией в урощенные.
Цитата:饮冰茹蘖
饮冰茹櫱
Если эти иероглифы полностью соответствуют друг друга, то можно их совместить. Но раз в каком-то китайско-китайском словаре они разные слова, то все-таки это разные иероглифы, просто похожие.
Цитата:это можно как-нибудь вылечить в автоматическом режиме ? или только вручную всё править ?
Можно просто пройтись по всем словам, и там где есть слова с иероглифами из сложной части, пытаться их сконвертировать, если такой уже есть, то удалять. Как-нибудь сделаю.
И надо понимать, что тут не только традиционные-урощенные, но и разнопись. Главное это таблица соответствий.
Цитата:Слова 水冷卻 нет, оно просто автоматически перенаправляется на 水冷却.
раз ошибка есть - значит слово есть
вот нашёл - в конце 3 части
Цитата:Это наверное, из-за того, что в словаре есть одиночные традиционные иероглифы из юнихана
если их убрать - остаётся ещё 900~ ошибок
скажем, Final Fantasy имеется в словаре как в традиционном , так и в упрощённом написании , а на сайте - традиционный вариант перенаправляет в упрощённный. Так может тогда убрать традиционный вариант из исходников ?
Цитата:Но раз в каком-то китайско-китайском словаре они разные слова, то все-таки это разные иероглифы, просто похожие.
я согласен, конечно же их нужно оставлять как разные иероглифы
только тогда при переводе , я думаю , лучше сразу ставить ссылку на слово с русским переводом ? как пример -
https://bkrs.info/slovo.php?ch=干清宫
Цитата:Можно просто пройтись по всем словам, и там где есть слова с иероглифами из сложной части, пытаться их сконвертировать, если такой уже есть, то удалять. Как-нибудь сделаю.
было бы очень хорошо
а то у меня получается , в готовом словаре , при проверке ошибок , традиционный вариант написания - имеет русский перевод , а упрощённый вариант - или китайский или английский перевод
пример:
Цитата:И надо понимать, что тут не только традиционные-урощенные, но и разнопись.
ну это понятно
В словаре есть традиционные. Они видны только в офлайне. Т.е. в онлайне
水冷卻 и 水冷却 ссылаются на одно слово 水冷却, а в офлайне 水冷卻, действительно, есть.
Много появилось при добавлении cedicta, у него было много традиционных, я это заметил когда уже добавил. 於 70 слов, 後 65 - это все от него (後 много уже в ручную).
И фильтр на добавление традиционных добавил только несколько дней назад, до этого они, возможно, иногда проскакивали незамеченными.
Решается несложно, как я уже и писал - пройтись по всем словам и в которых есть традиционные - упростить или удалить. Скоро сделаю, отпишу сколько всего ушло.
不由分說 и нет, где вы его увидели?
когда набираю в поиске на сайте оно его находит; лишь после нажатия кнопки "редактировать" оно перенаправляет на упрощенную карточку.
不由分说 то есть, оно на него и ссылается.
может быть я что-то не понимаю, но вот на скриншоте видно находит как отдельную запись которую нельзя удалить потому что при попытке редактировать сразу кидает на нормальную карточку. Итого есть две карточки в словаре 繁体字和简体字
Что каждый раз теперь чистить новую версию после скачивания??
eksodus, у вас есть список совпадающий карточек? (~3400)
Перед поиском в словаре все иероглифы конвертируются в упрощенные и лишь потом слово ищется.
А на странице в заголовке всегда стоит то, что введено в поле поиска. То есть, с традиционными там всегда будут стоять традиционные, а искаться будет по упрощенным.
В словаре традиционных нет. В базе есть немного, которые ошибочно попали, потом их удалю, но в онлайне на них выйти невозможно.
Измените 不由分说 и 不由分說 изменится аналогично.
chuanzhekuzi , я проверил - 不由分說 нет в исходниках , только упрощённая форма
а из 3400~ ошибок - около 2500 - это одиночные традиционные иероглифы из юнихана.
и только около 900 действительно ошибки (ну типа как две "последние фантазии")
вот файл ошибок при компиляции - я делал 1 файлом словарь
http://www.onlinedisk.ru/file/779010/
PS: картинку можно обрезать в Paint
|