1 2 >>> + 🔎
1



Случайно наткнулся на Common Voice. Это база озвучек для машинного распознования, обычные предложения, которые озвучивают и проверяют обычные люди. И всё это добро можно с̴̼̈͝к̷̮̍̾а̸̧͚̋ч̸̪̤̐а̸̡̛͈т̷̦̎ь̷͗͜.

Решил потратить несколько часов (получилось дней, как всегда), чтобы её разбомбить:
https://bkrs.info/commonvoice.php
По-моему весьма полезно. Можно слушать и скачивать (сама фраза в названии файла), случайные и постраничные.

Т.к. там самое сложно сделать первую, решил добавить ещё пару связанных, получилось три: китайский, тайваньский гоюй и гонконгский(?). Не понял что за 中文(香港), сначала подумал кантонский, но он отедельно (база ещё не набрана).

И почему-то у путунхуашного китайского 3/4 фраз какой-то мрак (что-то книжно-научное/какие-то адреса), а у гоюйшного нормально, много разговорного, хотя вроде источники должны быть похожие, как я понимаю, там даются случайные фразы

Случайная выборка:
普通话:
Цитата:生殖器穿洞是一种在生殖器上进行的身体穿洞
斯塔比亚原本是一个小港口
瑟姆瓦人口变化图示
两个旋转的复合等于一个旋转
赞科夫的行径引起共产国际的谴责
梅山远环蚓为巨蚓科远环蚓属下的一个种
代码被分配给一个城市和五个区
纽伦堡则需要连同比勒费尔德和科特布斯一起降入乙级联赛
类似的还有位于朝韩非军事区内的京义线长湍站等
小宫站八高线的铁路车站

国语:
Цитата:過勞不會出人命
我可以慢慢聽妳說
我們先幫妳看小孩
人力相當於編制
風險及衍生人事行政成本
那是秘密武器
吸食著迷妄自我的毒品
企業如何永續發展?
和朋友邊聊天
帶點顆粒的花生醬
Видно же, что какое-то мессиво в первом, хотя тоже полезно и есть нормальные.

Хотел ещё русский сделать для изучающих, но пока не хватило сил, да и сотни тысяч файлов тяжело через скрипты ворочаются на моём подыхающем диске.

Можно поучавстовать для своего языка: https://commonvoice.mozilla.org/languages, интересная тема, а главное, по настоящему открытая.


https://bkrs.info/commonvoice.php?page=random&lang=ch китайский
https://bkrs.info/commonvoice.php?page=random&lang=tw тайваньский (гоюй)
https://bkrs.info/commonvoice.php?page=random&lang=hk гонконгский (?)
потом в меню добавлю
2021.08.08
ЛС Ответить
2
Адов, это что за язык? Написано 中文(香港) и это не 粵文, т.к. он отдельно (ещё не сделано).
2021.08.08
ЛС Ответить
3
2021.08.08бкрс Адов, это что за язык? Написано 中文(香港) и это не 粵文, т.к. он отдельно (ещё не сделано).

Да, там гонконгский кантонский. Несколько фраз фрагментные, непонятны. Остальные могу перевести потом (сейчас только что ушёл из танцевального зала).
Помогаю онлайн с изучением китайского и кантонского.
Перевожу на китайский, делаю вычитку китайских текстов.
2021.08.08
ЛС Ответить
4
Странно, тогда почему у них ещё есть отдельный кантонский, то ли что-то напутали, то ли разные диалекты хотят собрать.
А как его назвать можно? 粵文, 廣東話, 香港粵文?

2021.08.08Адов Остальные могу перевести потом
Так там их >80000, я тоже думал о переводе, но слишком много и там и так для повышенного уровня, так что аудио достаточно.

Цитата: (сейчас только что ушёл из танцевального зала
Ого вы там развлекаетесь
2021.08.08
ЛС Ответить
5
2021.08.08бкрс А как его назвать можно? 粵文, 廣東話, 香港粵文?
Если речь идёт о письменном кантонском, то не 廣東話, 粵文 и 香港粵文 можно, здесь продолжено "粵語白話文".

Цитата:Ого вы там развлекаетесь
Да, целых три часа танцевал. Обнял красивых девушек досыта. 103
2021.08.08
ЛС Ответить
6
Тогда пока 香港粵文 назову. Есть подозрение, что это обычный 粵文 (который там отдельно), они запутались, возможно, специально 香港 выделили.

2021.08.08Адов Обнял досыта
抱饱了
2021.08.08
ЛС Ответить
7
2021.08.08бкрс Странно, тогда почему у них ещё есть отдельный кантонский, то ли что-то напутали, то ли разные диалекты хотят собрать.

Это политика. Пытаются обосновать, что Гонконг - не Китай, что у них даже язык отдельный есть.
2021.08.08
ЛС Ответить
8
2021.08.08бкрс 抱饱了
Я долго думал, как сказать 抱饱了 по-русски.
Друг предложил "я понаобнимался с девушками".
2021.08.08
ЛС Ответить
9
2021.08.08wusong Это политика. Пытаются обосновать, что Гонконг - не Китай, что у них даже язык отдельный есть.

Возможно, но не факт, у кантонского тоже есть диалекты. Пока у 粵文 не будет фраз (сейчас он в "Идёт подготовка", пустой) не разберёмся. Могли просто напутать.
То, что они этот назвали 中文(香港) странновато, но может так принято.

Из "китайских" там ещё естественно уйгурский и всё. Но там также есть башкирский, удмуртский, якутский и др "русские", так что политику особо не приплетёшь, языки реально разные. С диалектами сложно, там и так большинство в зачаточном состоянии.
2021.08.08
ЛС Ответить
10
2021.08.08Адов Я долго думал, как сказать 抱饱了 по-русски.
Друг предложил "я понаобнимался с девушками".
"досыта" красиво и понятно, хотя и не используется.
"[вдоволь/всласть] понаобнимался" нормально, но чаще будет "полапал" (поналапал?) (摸饱). Всё это с сильными оттенками 色狼, но "иностранцу" простительно 14
2021.08.08
ЛС Ответить
1 2 >>> + 🔎