2021.11.27test4 Когда учил физику (особенно квантовую), то весь мир как раз полон чудес.
Дело в том, что все перечисленное вами - принципы перевода 30-летней давности (Phrase-Based Models). Не поленитесь, почитайте принципы хотя бы 5-летней давности вот тут.
P.S. Реально очень интересно.
Не поленитесь и перечитайте моё сообщение, и поймёте, что я написал о том же, что и в статье, но кратче и доступнее.
Гугл-переводчик - это нейронная сеть. Нейронные сети работают, если перевести на физический уровень, как доска Гальтона. Только вместо силы тяжести, вызванной естественной гравитацией, искусственно определяется вес того или иного параметра.
И "вес" определяется именно по словосочетаниям, или сочетаемости слов.
К примеру омонимичное слово лук переведётся по разному в сочетании со словами: деревянный, грядка, море, бьюти-стандарт.
Ну и поначалу, нейронная сеть без обучения может только оперировать тем, что в ней заложено. Базовая грамматика, морфология, семантика, фразелогия. Достаточно, чтобы перевести "Мальчик бежит пять километров". Так что порой нейросеть переводит дословно и пословно, путает спряжения и склонения, спотыкается на сложносочинённых предложениях и прочем. Постепенно, скармливая нейросети лучшие варианты перевода, мы науки её вычленять более релевантные пары морфем, фразем итагдалие.
Но в любом случае эвристический анализ, каким бы комплексным он не был для нейросети, дробен, и на каждом шаге делается выбор из двух минимальных вариантов. Бинарная логика, вес вариантов, это вот всё. Для когерентного текста, это всегда выбор сочетаемости слов друг с другом, их семантическая связанность между собой и изначальным текстом.
Если в начале нейросеть вышла с базой знаний на зачаточном уровне, то за лет десять она уже прошла период настройки. И сейчас идёт период тонкой подстройки, тюнинга. В принципе, как есть, нейросеть откалибрована и готова к работе. Но как и с капчой, эта база основана на наших с вами решениях, если вы их в своё время делали.