简繁转换工具代码

vaily

Задача вообще состоит в следующем:
谷尼 по коммерческому предложению выкатило нам цену в 15 ванов за лицензию на их 舆情监控系统 (плюс еще 15% за каждый второй год за обновление баз). Есть подешевле, но они потом добирают свое на стоимости обновлений списков и т.д. Соответственно, мы решили попробовать написать свою версию с маджонгом и 妓女.
Размеры этого списка - чем меньше, тем лучше. Соответственно, для того, чтобы не плодить строчки( чем больше список, тем больше тупит клиент) вроде
政府не может
zhengфуwuneng
оно же無能
и так далее
необходимо добавлять эвристический анализ каждого предложения - для чего оно должно сопоставлять упрощенные, фантики и пиньин.
Вот с фантиками и вышел затык - в более-менее длинных предложениях количество возможных для подставления фантиков стремится к бесконечности.
Копипаста не проходит потому что надо для начала забить все эти соответствия в xml-файлик и назначить каждому из пунктов соответствия.
Хотя я теперь в принципе понимаю, за что они требуют такие деньги-)

萨沙

хм, у меня подозрение, что для андройд игр наверняка хватит той функции, что преобразует 2500 иероглифов (если вы конечно не пишите ремейк 汉字英雄 c фантиками и 拼音ом), если и будут косяки - исправлять следующим патчем/обновлением по жалобе пользователей. 舆情监控系统, наверное, нужна издателям литературы. Покупать стоит, если цена ошибки будет сопоставимой.

vaily

Какие жалобы. Приложение, в котором были замечены высказывания про всякие там дела синьцзянцев, про фалуней и т.д. немедленно снимается с продажи, компания лишается права в дальнейшем вообще хоть что-то выпускать на рынке, а 工信部( да не к ночи он помянут будет) еще долго пить кровь будет.
Так что тут цена ошибки высока, но не хочется выкидывать почти миллион рублей на энтерпрайз решение, из которого мы будем использовать от силы одну десятую возможностей...
Но они деньги определенно не зря берут - чего стоит хотя бы их OCR модуль, который в 9 случаев из 10 распознал рукописное(!) в стиле 草书（！）фантиками(!), упоминание про фалуней...

бкрс

Как уже говорилась, проблема конвертации в упрощённые решается просто

В традиционные сложнее, там или мириться с небольшим количеством ошибок или проверить после конвертации, т.к. количество иероглифов под сомнением мало, можно прям по ним искать и смотеть правильно ли перевело

萨沙

тут от банальной конвертации задача повысилась до эврестического анализатора неугодных высказываний во внутриигровом чате по типу "путин бомба взрыв чеченцы", тут по-моему без модераторов, гейммастеров не обойтись все равно что-то и будет проскакивать, прямо таки немедленно снимут с продажи? почему тогда байду не прикроют за порнографию? как это реализовано в других MMORPG и проч, неужели лицензируют? можно занятся программированием нейросети, но по стоимости/времени обучения нейросети оно так и выйдет в несколько 万-ов, и там не только упрощенные и традиционные, а еще всякие уловки типа 自由=目田 ловится должны.

vaily

не только в чате, еще и в никах игроков, на аватарках, в письмах, на форуме, в вейбо и т.д.
Да, снимают с продажи и появляются большие проблемы.
Модераторы само-собой нужны, но они служат вторым эшелоном, если что-то прорвется сквозь машину - одно дело, если фильтровать надо десяток записей.
Естественно, все эти хитрости тоже ловятся( как, например 婉 - 女宛，昆 - 日比）, но это уже задача далеко не первой очереди. Для начала надо запилить фильтр простых\фантиков\пиньина и простейший OCR для того, чтобы ловить хотя бы печатный текст на картинках и аватарках.
Про цену покупки я уже говорил - но так, если мы сами сделаем, это даст бесценный опыт, которого при покупке мы не приобретем.
Байду - не поставщик порнографии, как и любой торрент-трекер.
В дальнейших планах отлов:
1) 肏ni妈 - смешанных слов
2) синонимов - 部门、局、机关机构
3) финтифлюшек вроде 我和谐了、草泥马 и т.д.
Задача не усложнялась-) Просто сама по себе конвертация нафиг не нужна - только как кирпичик для этой 系统

萨沙

хм, тогда логичнее сначала нормализовать текст - удалить пробелы, знаки препинания, преобразовать традиционные в упрощенные (не нужно разнописи просто в один какой-нить), преобразовать другие языки (японские/корейские... в китайские), преобразовать уловки, 火星语, латиницу, прогнать через фильтр, отправить отчет модератору, только опять таки чтобы получить набор правил нужно посадить кучу китайцев анализировать экстремистcкую литературу и формулировать правила, но ведь тогда эти ваны придется отдать им, а есть ли фирмы лицензирующие именно правила (базы), а не саму программу?

vaily

базы называются 敏感词库 и в принципе, их можно накопать на профильных форумах бесплатно.
Другое дело в том, что в этих базах полно дубликатов, да и запихивать просто десятиметровую таблицу в сорокаметровую APK-шку - это явно не Pandaren Way. Соответственно, надо делать это все на сервере. На нем же и будет размещаться анализатор и эвристический модуль.
То есть базы, в принципе есть ( около 30.000 строк, около тысячи названий произведений, фильмов, несколько тысяч веб-адресов и т.д.), они покроют 99% требуемого. Вопрос в том, как бы скомпоновать все это в отдельный продукт, который будет:
1) есть очень мало ресурсов
2) по одной записи в базе - той же 政府 будет вылавливать все, что надо блокировать
3) не переборщить - можно пойти простым путем и блокировать вообще все сообщения, где есть слово 台湾. Но тогда легко докатиться до того, что проще вообще заблокировать чат, а ники игрокам придумывать самим...

萨沙

ну пользовательские аватары делать премодерируемыми придется в любом случае, остальные предустановленные как в QQ, чтоб не пилить распознование изображений, базу можно частично на клиенте (например матершину), частично на сервере (все остальное), ну можно делать списки пользователей применил 火星语 попадай в зону пристального внимания, IP из 新疆 попадай в зону пристального внимания, сказал что-то про Тайвань попал в зону пристального внимания, зона пристального внимания это там где слова пользователя будут проходить по полной базе (30000), вне зоны по частичной. Можно вобще запретить левые символы из юникода.

vaily

Такая логика ветвлений не подойдет - она сожрет ресурсов на порядок больше, чем прогонять каждое слово по базе - у нас же всего несколько десятков тысяч, а не дамп базы на 10 млн строк, где уже логично делить базу на отдельные сферы запросов
Премодерируемый контент очень плохо влияет на лояльность пользователей - дело даже не в модерации а в сообщениях "Ожидайте, такое-то появится только после проверки модератора".
Надо эвристику с логическими связями пилить - для нее даже в принципе уже есть наметки - что-то вроде блокировать предложения, в которых есть 政府 и 不、无、未、没 одновременно и т.д.