1
В Юникоде есть ряд знаков, что являются дупликатами уже распространённых знаков и включены только для совместимости. Похоже, что они по большей части используются в корейских текстах. Возможно, что корейские IME до сих пор их используют. Тем не менее, "Unicode Compatibility Characters are deprecated, and their use is discouraged."

Например, = .

Т.к. БКРС теперь в себя включает базу Unihan, неплохо бы сделать ссылки с этих дупликатов на общеупотребимые варианты. Вручную это делать тяжело, неплохо бы если бы Вы автоматизитировали процесс.

Вот полный список.
2012.04.23
Тема Ответить
2
Нужно сделать саму таблицу
女-女
老-老
Тут только ручками. А там видно будет.
Наличие такой таблицы это уже очень хорошо. По ссылке только перечень, без соответствий. В pdf есть, но там выковыривать каждый надо.

2012.04.23小熊 В ручную это делать тяжело, неплохо бы если бы Вы автоматизитировали процесс.
Не факт, что на автоматизация больше времени не потребуется, чем в ручную сделать.


И надо добавить все на автоматическую конвертация в онлайне.
2012.04.23
Тема Ответить
3
Таблицу не обязательно ручками делать.

Берём базу Unihan, достаём оттуда файлик Unihan_Variants.txt, ищем в нём строки с пометкой kCompatibilityVariant, там уже есть ссылки.

Или. В Wenlin есть функция преобразования compatibility вариантов в общеупотребимые. Edit -> Make Transformed Copy... -> Compatibility Characters. Можно просто туда забить таблицу из Википедии и получить новую с нормальными знаками.
2012.04.23
Тема Ответить
4
Собственно, я уже это сделал.

http://depositfiles.com/files/501qdva1h

Это полная таблица совместимости, формат: старый знак - новый знак.
2012.04.23
Тема Ответить
5
Хороший список.
Сюда выложу, там же затеряется.

Руки дойдут, вставлю по форме 更 -- "вм. 更".

Кстати, там не все иероглифы влезут. Те которые пятизначные в базу не войдут. Из даже форум сохранить не может, хотел текстом сюда.

.txt Compatibility Variants Table.txt (Размер: 4.49 Кб)
2012.04.23
Тема Ответить
6
Кстати, и обычные традиционные надо бы также сделать. А то в оффлайн-версии по запросу 國 выдаёт английский перевод, просто из Unihan.
2012.04.23
Тема Ответить
7
Традиционные и все разнописи тут конвертируются в упрощённые.

Может быть как-нибудь их причешем.
Гораздо более важная проблема - редактирование самих иероглифов, чтобы их привести в норму в соответствии с современными китайскими словарями.
2012.04.23
Тема Ответить
8
Наконец-то добавил
Всего 459, из них 170 новых.
В автоконвертации ни одного не было. Сразу переделал в упрощённые там где есть (таких 181), т.е. 樂 переводит в 乐, а не в 樂. В офлайне получается двухступенчатая: 樂 - вм 樂, 樂 - вм 乐.
2013.01.18
Тема Ответить
9
Прелестно, прелестно.

Жаль, конечно, что никак не пометили (в самих статьях), что это варианты совместимости.
2013.01.19
Тема Ответить