Пометы

Geologist

2016.03.08бкрс По хорошему надо составить список слов с данными пометами чтобы вычищать слова с ними.

почистил бы геол., мин., нефт., такие перлы иногда встречаются в употреблении этих помет...

бкрс

Надо подумать как лучше чистку организовать. Возможно имеет смысл хотя бы выбрать не самые частые (типа до 100), чтобы мусор убрать. Некоторые можно автоматом переделать/убрать.
Но это нужна отдельная система.

Geologist

2016.03.08бкрс Надо подумать как лучше чистку организовать. Возможно имеет смысл хотя бы выбрать не самые частые (типа до 100), чтобы мусор убрать. Некоторые можно автоматом переделать/убрать.
Но это нужна отдельная система.

поиск по БКРС показывает что геол. и мин. больше 1000

Кстати если поиск бы их показывал чистить было бы просто. Если есть ограничение
по буферу можно выводить первую 1000, вторую и т.п.

Еще пояснения, толкования (то, что в скобках курсивом) почистить бы хорошо, но для этого нужен способ их поиска

萨沙

хорошая идея надо бы запилить, еще предлагаю задать стандарт в виде регулярного выражения, тогда мусор можно будет чистить автоматически еще на уровне правки

бкрс

сделаю в ближайшем будущем (за парой других начинаний), не должно быть слишком сложно

бкрс

2016.03.08萨沙 предлагаю задать стандарт в виде регулярного выражения, тогда мусор можно будет чистить автоматически еще на уровне правки

Автоматически можно пройтись регулярками по базе и исправить, но там не совсем элементрано.

Кстати, недавно

ratijas написал программу под это, но меня больше интересует правка всей базы, а не частного использования, пока думаем как лучше для всей базы использовать. Жаль он в личке решил это обсуждать.

ratijas помню, хоть не могу найти сообщения через поиск, мы когда-то весной обсуждали возможность причесать колючим ёршиком dsl-разметку по всей базе сразу.

я писал, что нужен такой парсер, чтоб корректировал статьи с максимальной пользой и минимальным уроном.

в общем, этот парсер 终于 таки готов, называется flawless_dsl, и умеет следующее:

парсить любую убитую разметку, и давать на выходе валидный dsl

сортировать идущие подряд теги (открывающие и закрывающие, "слои") в каноническом порядке

Код:

m > * > ex > i > c
остальные стоят внутри в алфавитном порядке

не допускать одинаковые вложенные теги

оптимизировать такие вещи как

Код:

[c][i]...[/c],,,[/i] => [i][c]...[/c],,,[/i] вместо того как это делалось раньше: [c][i]...[/i][/c][i]...[/i]

оптимизировать слой 'c + i' => 'p'

ссылка на github, набор тестов прилагается.

я его уже испытал на вчерашней базе, результаты хорошие. осталось придумать, как запихнуть все правки по очереди, при этом ещё и не перезаписывая того, что люди успели изменить.

萨沙

бкрс, я не про то, я имею ввиду дать общее оформление для словарной статьи по типу
<словарная статья>=<абзац><нумератор1илиотсутвие><0 или помета[ы]><определение<0или1комментарий курсивом>><1знак препинания><опредление..0или1комментарий><0илиХпримеров><нумератор2еслиестьнумератор1><0 или помета[ы]><определение<комментарий курсивом>><0илиХпримеров><1 знак препинания><опредление> короче чтоб помета всегда и всегда была перед словом из списка разрешенных помет, чтоб между словами всегда была стандартная запятая или стандартная точка с запятой с одним пробелом и не было двойных/тройных пробелов как это сейчас, чтоб комментарий в скобках всегда шел после определения курсивом, оформление будет строже, чем позволяет dsl, но организованее и аккуратнее автозамену и проверку надо запилить именно в JavaScript, от тега [c] предлагаю отказаться вообще, оставить только [i] для комментария и [p] для помет, [m..] для абзацев, [b] для жирноты и [ex] для примеров
----
а в чем проблема отличать измененные от неизменных? можно просто контрольную сумму словарной статьи посчитать и если она изменилась то почикать скриптом уже измененный вариант статьи.

rrayman

В качестве предложения -- почему бы не писать пометки целиком? Не "эк.", а "экономика" и тому подобное.

Мы же не печатное издание, за чернила и бумагу платить не надо. Зато так яснее и просто опрятнее.

萨沙

rrayman, тут другая логика, по идеи переводчик видит перевод, помета должна устранят неоднозначность или предупреждать что слово грубое, она не должна "мозолить глаза"

сарма

2016.03.08rrayman почему бы не писать пометки целиком? Не "эк.", а "экономика" и тому подобное.

Зато так яснее и просто опрятнее.

Лучше уж без (какие-то отличительные знаки оставлять для омонимов и т.п слов).
Сами по себе пометы не мешают, если они оформлены по классическим словарным правилам. Если ты в них не нуждаешься, глаз их автоматически пропускает. Это дело привычки тех, кто много пользуется словарями и справочниками.
За лаконизм (в пределах допустимого).