1
Возникла такая проблема :

В БКРС есть слово
饮冰茹蘖
yǐnbīngrúniè
пить ледяную воду и питаться корнями дерева (обр. о тяжёлой, безрадостной .жизни, особенно одинокой женщины)

и есть такое слово , насколько я понял, добавленное из сателлитов -
饮冰茹櫱
_
[m1]见“[ref]饮冰食櫱[/ref]”。

эти два слова абсолютно идентичны , из-за того , что используется вместо

https://bkrs.info/slovo.php?ch=蘖+櫱

эту особенность я выяснил , используя скрипт , который любезно предоставил мне бкрс, для добавления традиционных заголовков к словарю

Всего мне компилятор выдал - Ошибок: 3412.
1) то есть , при переводе упрощённых в традиционные иероглифы , 3412 карточек используют похожие иероглифы , которые могут быть заменимы.

2) и... почему то имеются в наличии как на самом сайте , так и в оффлайн версии как традиционные так и упрощённые варианты написания слов

пример1

упрощённый вариант
https://bkrs.info/slovo.php?ch=水冷却
традиционный вариант
https://bkrs.info/slovo.php?ch=水冷卻


пример2

упрощённый вариант
https://bkrs.info/slovo.php?ch=一伙
традиционный вариант
https://bkrs.info/slovo.php?ch=一夥

а сам словарь вроде бы должен состоять только из упрощённых форм иероглифов

это можно как-нибудь вылечить в автоматическом режиме ? или только вручную всё править ?



2011.11.25
Тема Ответить
2
2011.11.25eksodus упрощённый вариант
https://bkrs.info/slovo.php?ch=水冷却
традиционный вариант
https://bkrs.info/slovo.php?ch=水冷卻
Слова 水冷卻 нет, оно просто автоматически перенаправляется на 水冷却.

Цитата:упрощённый вариант
https://bkrs.info/slovo.php?ch=一伙
традиционный вариант
https://bkrs.info/slovo.php?ch=一夥
夥 -> 伙 тут какой-то сложный случай, только часть иероглифа соответствует традиционный-упрощенный, а другая часть разные.
Нужно отдельно рассматривать стоит ли их совмещать.

Цитата:Всего мне компилятор выдал - Ошибок: 3412.
Это наверное, из-за того, что в словаре есть одиночные традиционные иероглифы из юнихана. Лучший вариант удалять их перед конвертацией в урощенные.

Цитата:饮冰茹蘖
饮冰茹櫱
Если эти иероглифы полностью соответствуют друг друга, то можно их совместить. Но раз в каком-то китайско-китайском словаре они разные слова, то все-таки это разные иероглифы, просто похожие.

Цитата:это можно как-нибудь вылечить в автоматическом режиме ? или только вручную всё править ?
Можно просто пройтись по всем словам, и там где есть слова с иероглифами из сложной части, пытаться их сконвертировать, если такой уже есть, то удалять. Как-нибудь сделаю.

И надо понимать, что тут не только традиционные-урощенные, но и разнопись. Главное это таблица соответствий.
2011.11.26
Тема Ответить
3
Цитата:Слова 水冷卻 нет, оно просто автоматически перенаправляется на 水冷却.
раз ошибка есть - значит слово есть
вот нашёл - в конце 3 части
[Изображение: 112ih.jpg]

Цитата:Это наверное, из-за того, что в словаре есть одиночные традиционные иероглифы из юнихана
если их убрать - остаётся ещё 900~ ошибок

скажем, Final Fantasy имеется в словаре как в традиционном , так и в упрощённом написании , а на сайте - традиционный вариант перенаправляет в упрощённный. Так может тогда убрать традиционный вариант из исходников ?
[Изображение: 101jtj.jpg]
[Изображение: 102au.jpg]

Цитата:Но раз в каком-то китайско-китайском словаре они разные слова, то все-таки это разные иероглифы, просто похожие.
я согласен, конечно же их нужно оставлять как разные иероглифы
только тогда при переводе , я думаю , лучше сразу ставить ссылку на слово с русским переводом ? как пример -
https://bkrs.info/slovo.php?ch=干清宫
[Изображение: 103zac.jpg]

Цитата:Можно просто пройтись по всем словам, и там где есть слова с иероглифами из сложной части, пытаться их сконвертировать, если такой уже есть, то удалять. Как-нибудь сделаю.
было бы очень хорошо
а то у меня получается , в готовом словаре , при проверке ошибок , традиционный вариант написания - имеет русский перевод , а упрощённый вариант - или китайский или английский перевод
пример:
[Изображение: 114ebs.jpg]
Цитата:И надо понимать, что тут не только традиционные-урощенные, но и разнопись.
ну это понятно
2011.11.27
Тема Ответить
4
Нужно бы удалить 不由分說
2011.11.28
Тема Ответить
5
В словаре есть традиционные. Они видны только в офлайне. Т.е. в онлайне
水冷卻 и 水冷却 ссылаются на одно слово 水冷却, а в офлайне 水冷卻, действительно, есть.

Много появилось при добавлении cedicta, у него было много традиционных, я это заметил когда уже добавил. 於 70 слов, 後 65 - это все от него (後 много уже в ручную).

И фильтр на добавление традиционных добавил только несколько дней назад, до этого они, возможно, иногда проскакивали незамеченными.

Решается несложно, как я уже и писал - пройтись по всем словам и в которых есть традиционные - упростить или удалить. Скоро сделаю, отпишу сколько всего ушло.


不由分說 и нет, где вы его увидели?
2011.11.28
Тема Ответить
6
когда набираю в поиске на сайте оно его находит; лишь после нажатия кнопки "редактировать" оно перенаправляет на упрощенную карточку.
2011.11.29
Тема Ответить
7
不由分说 то есть, оно на него и ссылается.
2011.11.29
Тема Ответить
8
может быть я что-то не понимаю, но вот на скриншоте видно находит как отдельную запись которую нельзя удалить потому что при попытке редактировать сразу кидает на нормальную карточку. Итого есть две карточки в словаре 繁体字和简体字

[Изображение: d3f1acda9eb3e9d9a87272f3cea3c5dd.jpg]

Что каждый раз теперь чистить новую версию после скачивания??


eksodus, у вас есть список совпадающий карточек? (~3400)
2011.11.29
Тема Ответить
9
Перед поиском в словаре все иероглифы конвертируются в упрощенные и лишь потом слово ищется.
А на странице в заголовке всегда стоит то, что введено в поле поиска. То есть, с традиционными там всегда будут стоять традиционные, а искаться будет по упрощенным.
В словаре традиционных нет. В базе есть немного, которые ошибочно попали, потом их удалю, но в онлайне на них выйти невозможно.

Измените 不由分说 и 不由分說 изменится аналогично.
2011.11.29
Тема Ответить
10
chuanzhekuzi , я проверил - 不由分說 нет в исходниках , только упрощённая форма
а из 3400~ ошибок - около 2500 - это одиночные традиционные иероглифы из юнихана.
и только около 900 действительно ошибки (ну типа как две "последние фантазии")

вот файл ошибок при компиляции - я делал 1 файлом словарь
http://www.onlinedisk.ru/file/779010/

PS: картинку можно обрезать в Paint
2011.11.29
Тема Ответить