Автодобавление апострофа в пиньинь

бкрс

Возможно ли вставлять апостроф в пиньинь?

Насколько я понимаю, просто так добавлять его перед слогами, начинающимеся с a, e, o не получится - будут ошибки. Нужно анализировать впередистоящий слог и, возмжожно, сами иероглифы, а это уже сложно.
Есть ли алгоритм?

Например:
彼岸 bi’àn - апостроф перед an есть
变化 biànhuà - апострофа перед an нет

Ветер

Во втором случае два иероглифа - два слога. Ошибок в членении быть не может. Если расчленить как bi an hua то получится три иероглифа.
То есть если у нас по причине отсутствия выходит пиньинь для меньшего числа иерглифов чем есть, то это ошибка. Если для большего - то ошибки нет.

漂亮 если добавляем апостроф, то получается пиньинь для трех иероглифов. Это число больше, поэтому это ошибка
西安 если убираем апостроф, то получается число меньше чем 2 иероглифов - 先

artem328

бкрс, а

Ветер дело говорит

小熊

Ветер, такая система не подойдёт, см. 反感 и 方案.

бкрс, чтения нужно брать с самих одиночных иероглифов и проверять по одному нужен ли апостроф.

Ветер

Цитата:4 |
Ветер, такая система не подойдёт, см. 反感 и 方案.

Верно. Не продумал.

Жто не работает, если первый слог заканчивается на согласную n/g

Цитата:3 |
бкрс, а Ветер дело говорит

Не везде подойдет, увы.

бкрс

Тогда придётся поиероглифно. Но там не всё так просто, есть ещё пробелы и ошибки как в иероглифах, так и в пиньине.
Тогда будет делаться так - если скрипт 100% уверен, что апостоф нужен, он добавляется. Если есть какая-то неточность или двусмысленность, то ничего не добавляется, пусть лучше не будет где надо, чем будет ошибочный. В любом случае будет лучше чем никак.

Осталость только написать. Следующим делом займусь.

大好人

2014.05.12Ветер То есть если у нас по причине отсутствия выходит пиньинь для меньшего числа иерглифов чем есть, то это ошибка. Если для большего - то ошибки нет.

Что касается слов с 儿, здесь двойная проблема.
鞋儿 xiér - иероглифа два, а слог один, но ошибки нет; а робот тем временем метается в панике, просто вставить апостроф, чтобы получить xi'ér, или поставить пиньинь автоматом и получить xié'еr, или вообще оставить все как есть.

бкрс, слова с 儿 наверно вообще лучше обруливать, используя логарифм для расстановки пиньиня. Или все-таки возможно без участия человека угадать, что в каких-то словах последний слог - это "ребенок", не эризация?

По-моему, лучший логарифм - определить, какие слова нуждаются во внимании, и дать знать редакторам, чтобы они проработали их вручную. Реально ли?

artem328

大好人, вы наверное хотели сказать не логарифм, а алгоритм...

大好人

artem328, ага

но сказала почему-то по-другому))) Причем два раза))) Я от себя в шоке

бкрс

2014.05.13大好人 По-моему, лучший логарифм - определить, какие слова нуждаются во внимании, и дать знать редакторам, чтобы они проработали их вручную. Реально ли?

А как это определить? Да и в ручную глупо делать то, что можно автоматизировать.

Но там сложности не только с 儿.
Например, 口岸上 kǒuànshàng - можно определить, что перед 岸àn нужен апостроф, но как определить, что это первое àn, а не то, которое в shàng. Тут или игнорировать, когда слог встречается больше одного раза, или писать сложный скрипт, который расчленяет пиньинь на слоги, начиная с первого, добовляет апостроф, а потом назад соединяет. А если там пробелы то ещё сложнее.

Это плата за простоту, что у нас пиньинь это просто текст, никак не связанный с иероглифами.