>>4049660> отсюда безумное количество омофонов
Конечно же они!
>>4050025 Во избежание взаимного непонимания, сразу выделяю главное: для меня эталоном адаптивности является японский язык. Отталкиваясь от этого, по моему скромному мнению, китайский имеет средний уровень сложности. Это как максимум 3 место, но скорее всего в реальности ниже. Позиция выше английского и русского, главным образом из-за "
слоговости", но явно не доходит до уровня японского или испанского.
Предупреждаю, что мне сложно аргументировать свое мнение, поскольку слабо знаком с реалиями китайского языка.
Прекрасный повод отправить меня куда подальше Тем не менее, попытаюсь указать на возможные подводные камни.
Yoroshiku o-negai shimasu> в плане синтеза просто, а говорить самому на китайском тяжело.
Парадокс полный иронии.
> в этом плюс слоговых языков
Категорично согласен.
> если их можно так назвать
Есть термин силлабический, но больше к письменности относится.
> достаточно записать 400 слогов
Не согласен.
Это результат ниже среднего утау со всеми издержками подобного. Таким же образом можно баловаться с фонемами в других языках и что-то выжимать из этого.
Речь еще куда не шло, но пение будет отвратительно-неестественным, с резкими переходами, с выпирающейся пластмассой и прочей синтетикой.Это как заявить, что для создания виртуальной флейты достаточно записать основные виды артикуляционных атак на одной ноте, остальное получить после программной обработки – без искажений просто поднять тон не выйдет.
Вы справедливо отметили, что в языке Поднебесной структура и количество слогов строго регламентировано, что в принципе облегчает "
портирование".
Но давайте проведем простой эксперимент.
Сколько основных гласных фонем в русском языке без дифтонгов и проч.?
рекламная паузаМы уже давно не в первом классе, нам для примера хватит и простого "э".Произнесите поочередно слова "эти", "этот", "шерсть". Обратите внимание на положение артикуляционного аппарата и конечного звука. Это три разных "э" (или я верблюд), зависящих от окружающих их звуков, но не имеющих в русском языке смысловое значение, поэтому объединенные в одно общерусское "э". ЧСХ замена этих "э" одним "общерусским" неизбежно приводит к акценту. Да, это "мелочи", но они есть во всех языках и в них, как известно, дьявол. При этом, количество
死神 шинигами прямо пропорционально количеству фонем, особенно согласных, т.к. у них объективно более сложная природа и на них в основном лежит смысловая функция.
Сколько в китайском согласных фонем? А сколько в японском?
%В японском языке официально 18, а гласных всего 5, для честности добавим еще 3 йотированных дифтонга. Часто согласные сочетаются только с определенным гласными. Комбинаций будет немного и сами они простые. Это важно!%
Китайский язык: 21 инициаль, а в качестве финалей используется 6 простых гласных звука и (sic!) 29 сложных: дифтонгов, трифтонгов и сочетаний, делающих слог закрытым. Понимаете, ПО синтеза речи встречается с теми же проблемами, что и виртуальные инструменты, имитирующие реальные.
Первоначально, мне хотелось подробно расписать возможный порядок создание хорошей
сферической виртуальной флейты
в вакууме.
Самому смешно Выходило 2700 семплов = 36 (ноты диапазона) * 15 (приемы артикуляции) * 5 (динамические слои). Представьте сколько это должно весить?
И это только сырой материал, звучание которого нужно будет инструменту дорабатывать с учетом психоакустических особенностей восприятия звука человеком – грубый сеплинг убог и весьма себе ощущается, как и излишняя обработка.
Создателям подобного ПО приходится балансировать между двумя крайностями: качественный звук и цифровое моделирование физических процессов звукообразования вообще и различных приемов. И тот и другой метод не ведет к однозначно положительному результату и на данный момент самостоятельно не используется.
> В пении они не учитываются
Моя оплошность, что не отметил те особенности, как физиологические.
Каюсь! Каюсь! Касюсь!.
Естественно, что нормы произношения в пении изменяются или упрощаются. Например, на высоких нотах все гласные становятся больше похожими на «а» и четкость согласных падает, потому что вокалист при их исполнении шире открывает рот, чем при речи.
Давайте сравним синтезированную речь и пение, ведь их синтез проходит по разным алгоритмам.
В песне после прочтение текста идет куплет. До конца можно не слушать:
https://youtu.be/qwfD1_EeZ3M?t=1m18s Разница ощущается, не так ли?
Речь более естественна, поскольку приближена к первоначальным семплам, а в пении на относительно долгих тонах постоянно слышится тон с легким «песком». Позвольте мне этот тон называть перманентным тоном – он генерируется самой программой и в какой-то степени подобен постоянному тону голосовых складок. VOCALOID пытается смоделировать процесс голосообразования
Ваш К.О. в том плане, что отказывается качества звука, который гарантирует добротный семпл, в пользу возможностей, которые предоставляет синтез.
Совершенно правильный выбор. Дважды повторюсь, в
чистом виде и тот и другой метод не используется (вспоминаем про придыхания), тут вопрос в приоритете. Ни один vocaloid не сможет в
реалистичность >>4004862, хотя бы из-за:
> 4,409 unique samples (mono, 44kHz, 24 bits)
Другое дело, нас интересует синтез "по правилам", а его подобные программы обеспечить не могут.
Доброчан не захотел это кушать:http://rghost.ru/6YTNFlvNx Прошу скачать
VOCALOID4Editor
Manual.pdf и пролистать страницы 160-170. Особенно обратить на фонетические таблицы
Japanese, Spanish, Chinese.
Здесь мы убеждаемся, что VOCALOID фактически генерирует слоги из набора фонем, т.е. он не использует семплы
в голом виде тех самых 400 слогов.
Мы не забудем об изменении звучании фонем в зависимости от окружения (те разные "э") и вспомним о 56 звуках китайского языка, отдельно согласные и гласные. Это один «а» для 21 согласного, это один «ou»… ну, и т.д. Само собой, что не все инициали и финали образуют между собой слоги, но
死神 шинигами есть, где развернуться.
Одновременно с этим, помним и про то, что
бога тонов нет, а мне сложно в это поверить, поскольку я
читал об этом в книгах.
Из этого выходят выводы, начинающие этот пост. Надеюсь, они не забыты.
Прошу прощения за неспособность организовать текст более лаконично. Мне было сложно не отметить некоторые важные для меня аспекты, в итоге текст настолько обрастал деталями, что пришлось его сократить: за бортом оказались недостатки и достоинства отдельно
семплера и синтеза, краткий анализ главных достижений поколений воков и взгляд в отдаленное будущее. Ведь я и без этого достаточно ходил по кругу.