Сообщения vaily

Сообщения участников в теме:
vaily (10) 萨沙 (7) бкрс (5) <<< Вернуться в тему
1
>>>
С аватарками и изображениями - дело десятое, все равно много на картинке 30*30 пикселей не изобразишь. Но вообще да, вы правы, естественно, без человеческой модерации не обойтись - задача стоит в том, чтобы максимально минимизировать ее количество.
А для того, чтобы эту логику просчитать уже никак без тестовой базы и тестового использования не обойтись. Вот и будем, похоже, мы вдвоем сидеть и заниматься написанием всякой антисоветчины...
З.Ы. И что за грубое "иероги"? Надо поласковее - "иерошки", "иерошечки"!
Блог о куче формальностей и процедур
Хочешь быть передовым - сей квадратно-гнездовым(с)
Перебрасываясь грязью со свиньей, не забывайте, что ей это нравится
2014.09.25
Тема Ответить
2
>>>
Такая логика ветвлений не подойдет - она сожрет ресурсов на порядок больше, чем прогонять каждое слово по базе - у нас же всего несколько десятков тысяч, а не дамп базы на 10 млн строк, где уже логично делить базу на отдельные сферы запросов
Премодерируемый контент очень плохо влияет на лояльность пользователей - дело даже не в модерации а в сообщениях "Ожидайте, такое-то появится только после проверки модератора".
Надо эвристику с логическими связями пилить - для нее даже в принципе уже есть наметки - что-то вроде блокировать предложения, в которых есть 政府 и 不、无、未、没 одновременно и т.д.
2014.09.25
Тема Ответить
3
>>>
базы называются 敏感词库 и в принципе, их можно накопать на профильных форумах бесплатно.
Другое дело в том, что в этих базах полно дубликатов, да и запихивать просто десятиметровую таблицу в сорокаметровую APK-шку - это явно не Pandaren Way. Соответственно, надо делать это все на сервере. На нем же и будет размещаться анализатор и эвристический модуль.
То есть базы, в принципе есть ( около 30.000 строк, около тысячи названий произведений, фильмов, несколько тысяч веб-адресов и т.д.), они покроют 99% требуемого. Вопрос в том, как бы скомпоновать все это в отдельный продукт, который будет:
1) есть очень мало ресурсов
2) по одной записи в базе - той же 政府 будет вылавливать все, что надо блокировать
3) не переборщить - можно пойти простым путем и блокировать вообще все сообщения, где есть слово 台湾. Но тогда легко докатиться до того, что проще вообще заблокировать чат, а ники игрокам придумывать самим...
2014.09.25
Тема Ответить
4
>>>
не только в чате, еще и в никах игроков, на аватарках, в письмах, на форуме, в вейбо и т.д.
Да, снимают с продажи и появляются большие проблемы.
Модераторы само-собой нужны, но они служат вторым эшелоном, если что-то прорвется сквозь машину - одно дело, если фильтровать надо десяток записей.
Естественно, все эти хитрости тоже ловятся( как, например 婉 - 女宛,昆 - 日比), но это уже задача далеко не первой очереди. Для начала надо запилить фильтр простых\фантиков\пиньина и простейший OCR для того, чтобы ловить хотя бы печатный текст на картинках и аватарках.
Про цену покупки я уже говорил - но так, если мы сами сделаем, это даст бесценный опыт, которого при покупке мы не приобретем.
Байду - не поставщик порнографии, как и любой торрент-трекер.
В дальнейших планах отлов:
1) 肏ni妈 - смешанных слов
2) синонимов - 部门、局、机关机构
3) финтифлюшек вроде 我和谐了、 草泥马 и т.д.
Задача не усложнялась-) Просто сама по себе конвертация нафиг не нужна - только как кирпичик для этой 系统
2014.09.25
Тема Ответить
5
>>>
Какие жалобы. Приложение, в котором были замечены высказывания про всякие там дела синьцзянцев, про фалуней и т.д. немедленно снимается с продажи, компания лишается права в дальнейшем вообще хоть что-то выпускать на рынке, а 工信部( да не к ночи он помянут будет) еще долго пить кровь будет.
Так что тут цена ошибки высока, но не хочется выкидывать почти миллион рублей на энтерпрайз решение, из которого мы будем использовать от силы одну десятую возможностей...
Но они деньги определенно не зря берут - чего стоит хотя бы их OCR модуль, который в 9 случаев из 10 распознал рукописное(!) в стиле 草书(!)фантиками(!), упоминание про фалуней...
2014.09.25
Тема Ответить
6
>>>
Задача вообще состоит в следующем:
谷尼 по коммерческому предложению выкатило нам цену в 15 ванов за лицензию на их 舆情监控系统 (плюс еще 15% за каждый второй год за обновление баз). Есть подешевле, но они потом добирают свое на стоимости обновлений списков и т.д. Соответственно, мы решили попробовать написать свою версию с маджонгом и 妓女.
Размеры этого списка - чем меньше, тем лучше. Соответственно, для того, чтобы не плодить строчки( чем больше список, тем больше тупит клиент) вроде
政府не может
zhengфуwuneng
оно же無能
и так далее
необходимо добавлять эвристический анализ каждого предложения - для чего оно должно сопоставлять упрощенные, фантики и пиньин.
Вот с фантиками и вышел затык - в более-менее длинных предложениях количество возможных для подставления фантиков стремится к бесконечности.
Копипаста не проходит потому что надо для начала забить все эти соответствия в xml-файлик и назначить каждому из пунктов соответствия.
Хотя я теперь в принципе понимаю, за что они требуют такие деньги-)
2014.09.25
Тема Ответить
7
>>>
2014.09.24бкрс Разнописи и упрощения никак не связаны. Противоположность разнописей 异体 - правильное написание 正体
+ там ещё со шрифтами разных языков намешано, т.е. всего 3 проблемы: упрощения, разнописи, шритфы

Гдеж там более полный, у нас 3900, а там 2300

У там ошибка, у него есть одно из значений "только", но там чтение zhī и основное значение "уважать" (祗候)

Это называется "ключ", сам иероглиф 鬥->斗 дан там же.

эээ.. ctrl+a ctrl+c

1) можно более подробно обьяснить, о чем мы сейчас говорим. Мы говорим о процессе, когда разные иероглифы приводятся к единому написанию - т.е., когда одинаковые иероглифы, пишущиеся по разному приводятся к общему знаменателю, а некоторые иероглифы с одинаковыми ключами упрощаются в написании
2) при всем уважении к вам, вы действительно уверены, что правы вы, а не 国家语言文字工作委员会. Как-то больше верится именно им( не в обиду вам будет сказано)
3) да, понял
4) парсеру надо обьяснить, что из скопипастенного упрощенные, а что - традиционные.
2014.09.25
Тема Ответить
8
>>>
Разобрался, но не до конца.
Как я понял, на территории КНР существует только один вид письма, к которому приведены все существовавшие ранее разнописи. Например, три вот этих
隻、祗、衹
все приводятся к одному 只
(Кстати на http://www.zsjy.gov.cn/yywz/yypg/gfwj/17.htm список более полный, там, допустим, на 只 есть три разнописи, а у нас всего две).
Плюс еще у нас в базе, допустим, указано, что 鬥 - это разнопись от 斗, а исходя из этого документа,
鬥字头的字,一般也写作門字头,如鬧、鬮、鬩写作閙 - то есть это вообще не тот иероглиф...
Осталось только подумать над тем, как бы этот список удачно спарсить - уж больно неудачно для парсинга там изложено все это.
А вообще, интересно было бы покопаться в исходниках WPS какого-нибудь. Там уже механизм отточен. Правда в таком случае непонятно, если я нажимаю 简转繁, то что за фантик оно поставит вместо 只 - наобум выбранный создателями программы, наверное...
2014.09.24
Тема Ответить
9
>>>
Не понял, как мне его взять? У меня к админке сайта доступа точно нет
2014.09.24
Тема Ответить
10
>>>
В общем, понадобился мне код конвертера 简繁转换工具. В исходниках одного сайта накопался такой вот код

function charPYStr(){
return '锕皑...(около 2500 тысяч иероглифов в упрощенном написании)

function ftPYStr(){
return '錒皚藹...( такое же количество иероглифов в упрощенном написании)
И дальше идет замена иероглифа из первого списка на иероглиф из второго списка( ну, или наоборот)
Соответственно, возник вопрос - неужели их всего 2500
Но после трех часов тупления над 简化字总表,简化字过程, 汉字简化方案 и т.д. я понял, что точного количества я так и не добьюсь, так как вся официальная информация - это что-то вроде
以下表格来自《简化字溯源》,常常被断章取义的引用,实际其中只有388个简化字,而《简化字总表》有《简化字总表》收录了2274个简化字及14个简化偏旁
То есть никто понятия не имеет, сколько иероглифов точно было упрощено.
Соответственно, вопрос - если в этом упрощаторе оставить только этих 2.500 иероглифов, сильно ли это повлияет на конечный результат, часто ли будут встречаться отсутствующие в базе иероглифы.
З.Ы. Этот самый 简化字过程 - это тихий ужас - там не то, что без пол-литра не разберешься, там вообще можно голову сломать. Это напоминает законодательство США - поправки к поправкам к поправкам к поправкам...
2014.09.24
Тема Ответить