China Red Devil, тут не надо было удалять. Некоторые полные иероглифы в мандарине все-таки используются.
Пожалуйста, смотрите сначала статью по тому иероглифу, которым решили заняться. Вдруг он из таких. бкрс, наверное, имеет смысл сделать там в теме предупреждение насчет ”проблемных” иероглифов более явным.
Может, кто-то вообще не в курсе.
Можно еще сделать удаление подобных слов невозможным.
остроwok, В "мандарине" используются все полные иероглифы.
Но на самом деле да, проблемных иероглифов, которые не надо бы конвертировать, там очень много.
Например 傢 это вовсе не традиционный вариант от 家, а другой иероглиф.
И таких там очень много.
Как с ними быть, пока не понятно.
Стараюсь убирать только бесспорные варианты
остроwok, убрал 幺麽小丑 и конвертацию 麽->么. Хотя такие иероглифы, которые одновременно традиционные и упрощённые всю малину портят. Особенно 麽, он часто ошибочно записан в 怎麽, 什麽 в упрощённых текстах.
幺麽小吏 и 跳梁幺麽 - они тут изначально в упрощённых, это к конвертации не относится. Исправил.
China Red Devil, одной из целей это выявить косяки конвертации.
傢, действтиельно не 家. Убрал из конвертации. Но все слова с ним ошибочны, это именно 家
Если такие встретите, дайте знать.
傢什
傢伙
傢具
家俱
China Red Devil, 傢, действительно самостоятелен, но у него все значения пересекаются с 家, правильно?
Тогда лучше оставить, только сам иероглиф исправить.
бкрс, Да, так пожалуй оптимально будет : 傢具 см. 家具 и т. д.
Вот еще- иероглиф 売:
制动器売体
哈売
здесь ничего менять не надо, все правильно.
Полный иероглиф 卖 совсем другой - 賣.
Насчет 怎麽, 什麽 и т.п.: для 60- 70 годов прошлого века тексты, где полные и сокращенные иероглифы идут вперемешку были нормальным явлением. Могло встретится все, что угодно, вплоть до того, что на одной странице иероглиф полный, а на другой он же сокращенный. Тогда это никого не удивляло. :)
Товарищ CRD совсем брехню стал нести. По полочкам:
1) НЕЛЬЗЯ путать 売 с 壳! 売 - это японщина (его даже нет ни в одной китайской кодировке!), сильное упрощение 賣. А вот 壳 (ké/qiào) -- самый обычный китайский иероглиф. Он и используется в словах вроде 壳体, 哈壳.
Обратите внимание на то, как 讀 и 賣 упрощены в японском.
2) Насчёт 傢. В КНР упрощается в 家, всё правильно было. 傢 использовался только в ряде слов, например: 傢什, 傢具, которые сейчас все записывают просто через 家.
小熊, да, я увидев "яп" понял, что это из вашего списка. Но примеры 制动器売体 и 哈売 убедили меня, что это у вас ошибка, исследовать дальше не стал.
Тут проблема в OCR или как их там вносили, раз похоже, буде именно с 壳 путаться. Откачу.
А так, конечно, печальная картина, буду сейчас побаиваться подобное править. Достаточно глубоко исследовать редко получается.
Заходите чаще, если будет возможность.
То что единичные иероглифы это отдельный пласт любого китайского словаря я давно понял, тут совершенно по другому со словарём надо работать. Но по инерции с ними как с обычными словами обращаюсь.
Появилась идея сделать удобный список просмотра всей базы конвертируемых иероглифов.
Скорее всего и их правку. Я думал что их давно сделаем и больше трогать не придётся, но всё равно постоянно приходится там ковыряться.
Я так вообще решил, что 売- это какой- то глюк со шрифтом . Там в списке по два иероглифа 女 и два иероглифа 了, вообще ничем не отличающиеся.
Насчет 傢- это отдельный иероглиф, который никогда не был традиционным вариантом 家. И значение у них не совпадает полностью, так что убирать его будет неправильно. Записывать его просто через 家 стали, похоже, только с распространением интернета, не раньше. Точно та же ситуация, что в русском языке со словами с буквой ё. Вроде бы и можно заменить, а получается неправильно.
То же самое- насчет 灋 → 法. Хоть у них смысл и одинаковый, но просто конвертировать один в другой нельзя. Это не пара "традиционный-упрощенный".
бкрс, проблема, похоже, в том, что там в списке конвертируется все подряд: и 繁体字, и разнописные варианты. Если иероглифы типа 機 → 机 можно заменять дез особых проблем, то разнопись все же лучше оставлять...
China Red Devil, могу согласиться, что всё не просто и однозначно сказать как лучше нельзя.
Разнописи оставлять вряд ли разумно, так как слова, где они встерчаются по ошибке просто не будут искаться. Попробуйте перевести слово 女人 там, где нет конвертации 女→女.
К тому же, конвертация это чисто сайтовое, в самом словаре ничего не конвертируется.
Все разнописи это слова сами по себе, и х можно править как и любой другой иероглиф.
Пожалуйста, смотрите сначала статью по тому иероглифу, которым решили заняться. Вдруг он из таких.
бкрс, наверное, имеет смысл сделать там в теме предупреждение насчет ”проблемных” иероглифов более явным.
Может, кто-то вообще не в курсе.
Можно еще сделать удаление подобных слов невозможным.
Из-за этого не пойму, надо было передобавлять или нет.
В любом случае, слова, начинающиеся с 幺麽, не должны конвертироваться, как это происходит сейчас.
Правильно:
幺麽小丑
幺麽小吏
跳梁幺麽, и т.д.
Но на самом деле да, проблемных иероглифов, которые не надо бы конвертировать, там очень много.
Например 傢 это вовсе не традиционный вариант от 家, а другой иероглиф.
И таких там очень много.
Как с ними быть, пока не понятно.
Стараюсь убирать только бесспорные варианты
幺麽小吏 и 跳梁幺麽 - они тут изначально в упрощённых, это к конвертации не относится. Исправил.
傢, действтиельно не 家. Убрал из конвертации. Но все слова с ним ошибочны, это именно 家
Если такие встретите, дайте знать.
傢什
傢伙
傢具
家俱
Тогда лучше оставить, только сам иероглиф исправить.
Вот еще- иероглиф 売:
制动器売体
哈売
здесь ничего менять не надо, все правильно.
Полный иероглиф 卖 совсем другой - 賣.
Насчет 怎麽, 什麽 и т.п.: для 60- 70 годов прошлого века тексты, где полные и сокращенные иероглифы идут вперемешку были нормальным явлением. Могло встретится все, что угодно, вплоть до того, что на одной странице иероглиф полный, а на другой он же сокращенный. Тогда это никого не удивляло. :)
Не выдержал, залогинился.
Товарищ CRD совсем брехню стал нести. По полочкам:
1) НЕЛЬЗЯ путать 売 с 壳! 売 - это японщина (его даже нет ни в одной китайской кодировке!), сильное упрощение 賣. А вот 壳 (ké/qiào) -- самый обычный китайский иероглиф. Он и используется в словах вроде 壳体, 哈壳.
Если ещё есть сомнения, то вот открываем Википедию, смотрим статью о газете «Ёмиури Симбун»,
китайская статья:
японская:
Обратите внимание на то, как 讀 и 賣 упрощены в японском.
2) Насчёт 傢. В КНР упрощается в 家, всё правильно было. 傢 использовался только в ряде слов, например: 傢什, 傢具, которые сейчас все записывают просто через 家.
麽 таки не надо трогать, это 麼 надо упрощать.
Тут проблема в OCR или как их там вносили, раз похоже, буде именно с 壳 путаться. Откачу.
А так, конечно, печальная картина, буду сейчас побаиваться подобное править. Достаточно глубоко исследовать редко получается.
Заходите чаще, если будет возможность.
То что единичные иероглифы это отдельный пласт любого китайского словаря я давно понял, тут совершенно по другому со словарём надо работать. Но по инерции с ними как с обычными словами обращаюсь.
Скорее всего и их правку. Я думал что их давно сделаем и больше трогать не придётся, но всё равно постоянно приходится там ковыряться.
Насчет 傢- это отдельный иероглиф, который никогда не был традиционным вариантом 家. И значение у них не совпадает полностью, так что убирать его будет неправильно. Записывать его просто через 家 стали, похоже, только с распространением интернета, не раньше. Точно та же ситуация, что в русском языке со словами с буквой ё. Вроде бы и можно заменить, а получается неправильно.
То же самое- насчет 灋 → 法. Хоть у них смысл и одинаковый, но просто конвертировать один в другой нельзя. Это не пара "традиционный-упрощенный".
Разнописи оставлять вряд ли разумно, так как слова, где они встерчаются по ошибке просто не будут искаться. Попробуйте перевести слово 女人 там, где нет конвертации 女→女.
К тому же, конвертация это чисто сайтовое, в самом словаре ничего не конвертируется.
Все разнописи это слова сами по себе, и х можно править как и любой другой иероглиф.