11
2014.05.13бкрс А как это определить? Да и в ручную глупо делать то, что можно автоматизировать.
Определить путем вычитания сомнительных случаев из общей массы.
Объясню мысль.
2014.05.12бкрс Тогда будет делаться так - если скрипт 100% уверен, что апостоф нужен, он добавляется. Если есть какая-то неточность или двусмысленность, то ничего не добавляется, пусть лучше не будет где надо, чем будет ошибочный. В любом случае будет лучше чем никак.
Ваш план подразумевает, что проверяться на необходимость постановки апострофа будут все слова, да? Если так, то пусть слова, в которых робот сомневается откладываются в отдельную "кучу" или помечаются как-то в ваших программах (или чем вы там все это автоматизируете). Тогда вы сможете направить редакторов в эту "кучу".
Уж лучше вручную работать там, где робот не тронет, чем оно останется "никаким". Раньше про ручное переделывание традиционных иерогов кто-то тоже мог сказать, что это глупо.

Вообще, мой проект "апострофы вручную" в любом случае пригодится, даже если идеальный алгоритм постановки апострофа и найдется)) Обязательно останутся слова, которые робот обработать нормально не сможет. Те же слова с 儿 требуют работы человеческого мозга.
2014.05.13
Тема Ответить
12
2014.05.13大好人 пусть слова, в которых робот сомневается откладываются в отдельную "кучу" или помечаются как-то
Это при желании можно сделать пробежавшись по всем словам. Пока что недоделанных куч хватает (традиционные и битые сссылки).

Всё упирается в алгритм как определять пиньинь. Пока что на ум приходит только простой, который избегает сложный случаев.
2014.05.13
Тема Ответить
13
бкрс, всё просто, берём пиньинь с одиночных иероглифов и склеиваем в одно, пробелы юзер сам пусть ставит, на то он и авто-пиньинь, что полуфабрикат. например, 口岸上, система возвращает "kǒu àn shàng", скрипт склеивает пробелы, а если после пробела есть a/e/o, то добавляет апостроф. важно ещё учесть тона этих a/e/o, т.к. это разные знаки Юникода.
2014.05.13
Тема Ответить
14
小熊, уже добавил. Там пиньинь вставляется автоматом когда слово отправлено, а не автопиньинь.
По вашей методика автопиньинь слишком страдает, появляется ручная работа, если его сильно надо проверять и исправлять.
+ автопиньинь помогает проверять пиньинь мелких слов, а так это потеряется

Сейчас так:
проверяется каждое первое чтение иерогифов
если чтение начинается с aoe, проверяется сколько раз это чтение встречается (чтобы избежать àn в shàng)
если только один раз, то в чтении к пиньиню добавляется апостроф
удаляются двойные апостофы и апострофы перед пробелом и в начале слова

грубая сила, но 90% случаев должно покрыть
если подвтердится, что ошибок нет, можно пройтись по всем словам
2014.05.13
Тема Ответить