Tutorial UTAU: Usando português CVVC
Oi!
Até o momento, vários bancos de voz em português brasileiro para UTAU foram lançados. Temos o EDpoid, a Pururu Purpura, o Mainichi... e a expectativa é que a lista cresça! No entanto, todos esses bancos foram desenvolvidos para funcionar num método que não é tão fácil (à primeira vista) para a maioria do fandom: o método CVVC.
Para tentar melhorar a situação desse método (e ver mais covers em português youtube afora), escrevi esse tutorial. Espero que ele seja útil para o fandom!
Notas:
Para melhor compreensão deste tutorial, é recomendada pelo menos alguma experiência com bancos CV e VCV.
Esse tutorial não ensina como fazer a oto.ini de um banco CVVC.
FAQ!
1. O que é um método no mundo UTAU, afinal?
Método é a maneira como se conecta os fonemas dentro de um arquivo .UST. Essa maneira dependerá de como o banco de voz foi gravado e configurado.
Se um banco de voz tem apenas gravações CV (consoante-vogal) como sa.wav, ku.wav e ra.wav, você vai dispor essas gravações da seguinte maneira: [sa]/[ku]/[ra]. Assim é o método CV.
Se um banco tem gravações com transições trifônicas (vogal-consoante-vogal), você vai dispor tudo de maneira mais detalhada: [- sa]/[a ku]/[u ra]. Assim é o método VCV.
Resumindo, um método de síntese de voz no UTAU tem a ver com a gravação, a configuração e o uso de um determinado banco de voz.
2. O que diferencia o método CVVC do CV e do VCV?
Em termos de uso, o método CVVC é completamente manual, você vai escolher sempre a duração da transição entre todas as vogais e consoantes. Ele funciona basicamente assim, utilizando a palavra otaku como exemplo:
[o][ot]/[ta][ak]/[ku]
Enquanto no método CV, o mais simples, teríamos [o]/[ta]/[ku] e no VCV, o mais completo e mais natural, teríamos [- o]/[o ta]/[a ku].
O método CVVC ainda permite um melhor manejo de sílabas mais complexas (como aqueles que têm mais de uma consoante no início ou no fim). Por isso, ele é ótimo para línguas como o português - que tem palavras cheias de encontros consonantais tipo contraste.
Já em termos de gravação e configuração, o método CVVC é mais difícil que o CV e equivalente em dificuldade ao VCV. Mas não quero discorrer sobre isso neste tutorial. Qualquer outra hora (talvez nunca), faço um tutorial só sobre esses tópicos.
O método
O princípio básico de uso do CVVC é fazer manualmente todas as transições, sejam elas VV (de vogal pra vogal), CV (consoante pra vogal) VC, CC e assim por diante. Comparando-o com o método CV, tem-se:
CVVC | CV | VCV | |
---|---|---|---|
otaku | [o][ot]/[ta][ak]/[ku] | [o]/[ta]/[ku] | [- o]/[o ta]/[a ku] |
tsuki | [tsu][uk]/[ki] | [tsu]/[ki] | [- tsu]/[u ki] |
rin | [ri][in] | [ri][n] | [ - ri][i n] |
Ainda, a cada nota adicionada, deve-se fazer o crossfade. Como mostra a imagem a seguir (clique para ampliar):
A representação dos sons do português
O português tem mais sons do que o japonês, de maneira que precisemos de acentos, dígrafos e marcações gráficas para diferenciar o som de algumas vogais na língua escrita. Exemplo disto é a diferença entre ê e é, marcada pelos acentos.
Acontece que esses acentos gráficos não funcionam no UTAU. E isso torna tudo mais difícil.
Dessa forma, optamos, ao desenvolver reclists (listas de gravação para determinado idioma no UTAU), por utilizar uma forma de escrita de fonemas especialmente desenvolvida para o meio computacional: o SAMPA (e sua versão estendida, X-SAMPA).
Essa forma de escrita é utilizada em softwares como Vocaloid. Então se você já utilizou a Maika e tentou fazê-la cantar em português, tudo ficará mais fácil!
Se X-SAMPA ainda é um mistério para você, calma, ainda tem jeito. Um pouquinho de consciência fonológica e treino resolvem. Comece observando as tabelas abaixo:
Vogais:
Símbolo X-SAMPA | Escrita | Exemplo (Português) | Exemplo (X-SAMPA) |
---|---|---|---|
a | a | pá | pa |
e | ê, e | dedo | dedu |
i | i, e (fim de palavra) | cipó | sipO |
o | ô, o | bolo | bolu |
u | u, e (fim de palavra) | tu | tu |
6 | ã (fim de palavra) | maçã | mas6 |
E | é | pé | pE |
O | ó | pó | pO |
6~ | ã, a (antes de m, n e nh) | manga | m6~ga |
e~ | e (antes de m, n e nh) | penca | pe~ka |
i~ | i (antes de m, n e nh) | sim | si~ |
o~ | o (antes de m, n e nh) | sombra | so~b4a |
u~ | u (antes de m, n e nh) | fundo | fu~du |
Consoantes:
Símbolo X-SAMPA | Escrita | Exemplo (Português) | Exemplo (X-SAMPA) |
---|---|---|---|
b | b | bala | bala |
d | d | dedo | dedu |
dZ | d (antes de i) | dia | dZia |
f | f | fofo | fofu |
g | g | gueto | getu |
J | nh | manhã | maJ6 |
k | c, qu | cabo | kabu |
l | l | lado | ladu |
L | lh, l (antes de i) | malha | maLa |
m | m | mato | matu |
n | n | nada | nada |
p | p | pé | pE |
R | r (início de palavra), rr | rato | ratu |
s | s, ss | sapo | sapu |
S | ch, sh, x | chato | Satu |
t | t | teto | tEtu |
tS | tch, t (antes de i) | tchau | tSaw |
v | v | vela | vEla |
z | z, s (entre vogais) | casa | kaza |
Z | j, g (antes de e e i) | gelo | Zelu |
4 | r (entre vogais) | arara | a4a4a |
Semivogais (vogais fracas de ditongos e tritongos):
Símbolo X-SAMPA | Escrita | Exemplo (Português) | Exemplo (X-SAMPA) |
---|---|---|---|
j | i, e | pai, mãe | paj, m6~j |
w | u, l | pau, sal | paw, saw |
Lembrando que essas tabelas não preveem todos os casos de ocorrência de fonemas na língua! Você pode muito bem manipular os fonemas de outra maneira que achar conveniente e convincente para reprodução do sotaque escolhido. A parte difícil do trabalho de síntese é essa!
Coisas difíceis de entender à primeira vista:
1. O português possui vogais nasalizadas
São vogais muitas vezes não percebidas, mas indispensáveis para uma comunicação efetiva. Elas ocorrem principalmente com a adição do acento til (como em mãe e leão), ou antes de n ou m (como em dança e amplo).
Quer fazer um teste? Tape completamente as suas narinas com as mãos, e tente pronunciar a seguinte frase: Pedro sabe correr. Você provavelmente conseguiu, porque essa frase não tem vogais nasais.
Agora leia a seguinte frase com as narinas ainda obstruídas: Mamãe não me ama.
Percebe? Você provavelmente sentiu o ar esbarrando nas suas narinas fechadas. Isso são vogais nasais, e diferenciá-las no UTAU é essencial para obter resultados convicentes.
Dica importante: ao utilizar as vogais nasais, não é preciso colocar a consoante que vai ao fim da sílaba, o [~] já é a representação dessa consoante, seja ela m ou n. Por exemplo, se você quiser fazer um UTAU cantar a palavra penca, faça simplesmente [pe~][e~k]/[ka], sem [e~n] ou algo assim - pois o som de "n" deve estar em [e~k].
2. Antes de i e e, algumas consoantes mudam
Na maioria dos sotaques, algumas consoantes mudam antes de i e e. É o exemplo de t, d, e l, que soam, respectivamente como tS, dZ e L. Isso acontece com as palavras tia ("tchia"), dia ("djia") e livre ("lhivre").
É claro que haverá exceções. Alguns sotaques, como o da Bahia, pronunciam tia com o [t] mesmo, sem essa mudança. Cabe ao usuário (neste caso, você), escolher qual é o melhor fonema para cada canção.
3. Alguns símbolos contradizem a nossa escrita
O alfabeto X-SAMPA é utilizado para qualquer língua, não só o português, por isso pode parecer bem confuso em relação ao nosso alfabeto gráfico. Alguns exemplos de consoantes que parecem confundir as pessoas:
- [ J ] representa o som de nh em manhã, manhoso, apanhar.
- [ j ] representa o i em ditongos, como em pai, vai, trai.
- [ 4 ] representa o "r" trilhado, como em arara, grito, brilho.
4. O e e em fim de palavra têm som de u e i
Na maioria dos sotaques brasileiros, pronuncia-se o e e finais não-tônicos (isto é, no fim das palavras), com som de u e de i. Exemplo deste fenômeno é a pronúncia de palavras como gato [gatu], dedo [dedu], forte [fo4tSi] e cobre [kOb4i].
Colocando em Prática
Abaixo, um vídeo que gravei há um tempo atrás, mostrando como colocar tudo em prática. Peço perdão pela má qualidade e pelo excesso de hesitações (ã..., ãnhh...., ãhnnn)... hehe~
Espero que esse tutorial lhes tenha sido útil! E se tiverem qualquer dúvida, é só perguntar! :}
Tchau ~
Sobre o Autor
Gosta de línguas, reflexões introspectivas, UTAU/Vocaloid, discussões sobre gênero e sexualidade, do céu e de fazer da vida alheia um bordado de renda (de chita filó).
O que eu não gosto do vocaloid ou utauloid é a sua voz metalizada. Será que tem como fazer isso ou só cantando mesmo em um programa de audição?
ResponderExcluirOi Euphimia! Com esforço, dá pra deixar utauloids lindíssimos.
ResponderExcluirNo youtube vc pode procurar vários covers bem feitos com utau! c:
*caham* hora do spam, ouça esse: http://www.youtube.com/watch?v=WulXOVBNT_Q
Achei bonitinho Leo! ^^
ResponderExcluirNhá eu quero fazer meu meninos cantarem. T.T Só estou no desenho ainda. É que eu sou perfeccionista sabe. Vc tem um tutorial de fazer as voice bank, tipo quais as silabas que tem que ser gravada? Qual o formato do arquivo? Se falei alguma besteira, sorry, pois não entendo nada disso, sou crua mesmo. T.T
Obrigada por responder.
Creio que seja este o tutorial que você procura, Euphimea.
ResponderExcluirhttp://www.vocaloidbrasil.com/sobre-utau/crie-seu-utau/
Este tutorial aqui é pra usuários mais experientes, que saibam utilizar formas mais avançadas de síntese.
Para resultados mais realísticos com japonês, procure gravar VCV, e para outras línguas CV-VC.
UTAUs CV serão sempre menos reais.
Prática sempre ajuda! Boa sorte~
ei me expliquem uma coisa por favor, é que eu percebi que na reclist cv portugues existem parenteses ao lado da letra, tipo assim
ResponderExcluire)_a e)_e e)_i e)_o e)_
como eu faço para falar o que significa esses parenteses? obs, eu estou usando essa reclist no oremo para gravar
Oi, Kazuo!
ResponderExcluire) -> E
o) -> O
s) -> S
Basicamente, o parêntese significa que o símbolo é em letras maiúsculas ^^'
e)_a corresponde a E_a, ou seja, é a transição da vogal E para a vogal a. De acordo com a tabela mostrada acima, vc deve gravar E_a como Eaaaaaaaa ~ Entendeu?
gostei muito desse tutorial, e AISHI, muito obrigado por tirar minhas dúvidas, esse tutorial me ensinou muitas coisas.. ^^
ResponderExcluireu queria ter o kyoranne leo mas nunca acho o voicebank
ResponderExcluirpoderia me passar?
Bruno! Me manda o seu e-mail! Ou outra forma de contato~ conversamos daí e te mando o voicebank :>
ResponderExcluir