Сообщения etsune

1
>>>
Добавил выгрузку в файл + редактор + систему правок с простенькой авторизацией (правки можно и анонимно оставлять)
Плюс теперь есть страничка, на которой можно посмотреть все статьи с одной физической страницы словаря (может удобно будет для массовой правки, открывается по клику на "Page" на статье в поиске)

Делалось на коленке, так что возможны косяки eyes
2023.12.10
Тема Ответить
2
>>>
Lillily,
Картинки https://bkors.nyars.org/static/img.zip (900 Мб почти)
Текст https://bkors.nyars.org/static/ocr-list.zip

Мне кажется, проще редактировать не по отдельным картинкам, а просто djvu/pdf словарь открыть и по странице целиком смотреть.

Конечно, если будете редактировать, желательно, работать не в стол, исправленный файл я могу на сайт загрузить. + постараюсь редактор добавить, как будет время.
2023.11.29
Тема Ответить
3
>>>
Так-с, ну спустя год кореистов-энтузиазстов (не)ожидаемо не появилось, а знакомые-кореисты, которых спрашивал, вообще покрутили пальцем у виска, мол, на кой твой Никольский нужен в 21 веке. По "аналогу БКРС"/редактируемому корейскому словарю в целом ситуация похожая, людей существующие решения вполне устраивают.
Сейчас дошли руки навести порядок на диске, оформил OCR Никольского в некий сервис https://bkors.nyars.org/
Пускай лежит до лучших времён, может, лет через 10 сам запишусь в корейскую тусовку, никогда не знаешь, куда жизнь занесёт.
2023.11.29
Тема Ответить
4
>>>
2022.12.30Бескорыстный Лотос каким стеком реализовывать собираетесь?
Посмотрим по ситуации. Если вдруг наберётся народ и нужно будет по-быстрому прототип сделать, то на основе существующего яп словаря с ASP.NET Core, если в расслабленном режиме и в опенсорс, то на Rust. Фронтенд Vue.js

2022.12.30Siweida etsune, напишите, пожалуйста, сколько нужно добровольцев-кореистов и что конкретно нужно будет делать. И где-как. Я репостну в сообществе, где тусят изучающие корейский язык. Может, кто найдется.
Большое спасибо. Мне для начала нужен хотя бы 1 (но лучше больше) заинтересованный кореист, чтобы мог проконсультировать по самому языку, а в последствии взялся бы за проверку пользовательских правок. То есть люди, кто хотел бы именно поучаствовать (хотя бы дискуссионно) в разработке, предлагать идеи по функционалу словаря, ну и в целом давать какой-то фидбек на начальных этапах.
Написать можно мне в телеграме @etsune
2022.12.31
Тема Ответить
5
>>>
Небольшой апдейт по Никольскому, я раздобыл оба тома, пересканировал в нормальном качестве, прогнал через OCR. Дальше надо будет нарезать страницы на отдельные изображения со статьями и почистить основные ошибки оцифровки. Задался вопросом, что дальше со всем этим добром делать --
1) выложить на гитхабе по аналогии с Вародаем https://github.com/warodai/warodai-source , а там уже если кому-то будет интересно, то подхватит инициативу по дальнейшему редактированию статей. В худшем случае просто полежит до лучших времён.
2) делать полноценный редактируемый онлайн-словарь (как я предлагал выше) и прикручивать к нему сбоку возможность работы с отсканированными словарями. Технически задача несложная, но тут сложность с тем, что для ведения такого проекта нужен кто-то с приличным пониманием корейского (хотя бы проверять предложенные правки), но из знакомых кореистов никто не захотел в это ввязываться, мол, вы конечно молодцы, редактируемый словарь это хорошо, удачи вам там с этим проектом и хорошего настроения, а мы к наверу привыкли. Если вдруг есть желающие, заинтересованные или их знакомые, напишите пж в телеграме (ник тот же)
2022.12.27
Тема Ответить
6
>>>
2022.11.26hgw196 Этот сайт — лучший пример такого подхода.
Тема же называется "Аналог БКРС для корейского языка".
Смысл в том, чтобы разделить оцифровку и сам словарь. Она должна работать по принципу сателлитов в БКРС, то есть подтягиваться куском скана к открытой статье, только с той разницей, чтобы по оцифровкам можно было искать отдельно от основного словаря. Тогда правки в основном словаре не затронут оцифровку.

В БКРС тоже можно было бы добавить Ошанинский БКРС сателлитом, чтобы люди могли пользоваться оригинальными статьями (например, если необходима академическая ссылка), но тут осложняется тем, что
1) выпилены традиционки (не будет работать синхронизация статей из сателлитов и статей из основного словаря, если хранить их раздельно и подтягивать по заголовку)
2) нет поиска по сателлитам
3) сателлиты не подписаны, не разобрать, что откуда взято.
По идее в корейском словаре всех этих трёх пунктов можно избежать.

Ну насчёт полной оцифровки не могу сказать, как будет. Если автоматизировать всё это дело, дальше будет вопрос только в том, найдётся ли пара фанатиков, чтобы погрузиться в процесс. Тогда это меньше, чем за год будет возможно. Пусть даже этого не случится, возможность искать по OCR, даже с ошибками, уже значительный плюс.
2022.11.26
Тема Ответить
7
>>>
Если вдруг найдутся энтузиасты, то напишите, могу помочь с технической частью.
Плюс удалось откопать какие-то наработки по оцифровке корейского словаря от 2005 года, можно взять их за основу (30к статей).
К тому же есть техническая возможность подготовить двухтомник словаря Никольского к оцифровке (пересканить, чтобы сделать черновой OCR с минимально возможным количеством ошибок, нарезать на отдельные изображения, потом можно встроить это в онлайн-словарь, чтобы 1) пользователи могли искать по черновому OCR 2) пользователи могли править OCR, формируя полноценные статьи )
2022.11.26
Тема Ответить