You signed in with another tab or window. Reload to refresh your session.You signed out in another tab or window. Reload to refresh your session.You switched accounts on another tab or window. Reload to refresh your session.Dismiss alert
I've spent the past 6 hours by doing tons of attempts into understanding why they weren't being emitted correctly.
I tried using two different SSMLs, all from the same source - an Italian newspaper article.
Note
All the SSMLs are one liners and compacted. This is because, from previous attempts, giving Azure a beautified XML, might lead it to have some kind of an unpredictable behavior, depending on the used tool. I hope to be wrong and that I only didn't find yet the reason.
Nonetheless, I suggest to see them with a wrap mode enabled, instead of formatting them, and working with them on one line.
Note
You may see a bookmark called soundLogoEnd. That's a mark after an <audio> tag that I removed in the examples. Removing it doesn't change the outcome.
With this SSML, bookmarks get emitted correctly.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="it-IT"><voice name="it-IT-ElsaNeural"><prosody rate="5%"><bookmark mark="soundLogoEnd"/><emphasis level="strong">Trump contro la Federal Reserve di Powell, ma i mercati per ora non si muovono: cosa succede a Wall Street?</emphasis><break time="2400ms" /><bookmark mark="titleEnd" /><p>Non è più la Federal Reserve di una volta e, verrebbe da dire, non ci sono più i mercati di una volta.<break time="300ms" /><bookmark mark="periodEnd_000" /><break time="300ms" /> O, almeno, da quando c'è Donald Trump alla Casa Bianca, non si muovono più secondo le attese di chi è abituato a leggerli secondo una logica di azione e reazione, che si verifica sempre con meno frequenza. <break time="300ms" /> <bookmark mark="periodEnd_001" /> <break time="300ms" />La notizia dell'apertura di un'indagine del Dipartimento di Giustizia degli Stati Uniti d'America sul presidente della Federal Reserve Jerome Powell è, di per sé, una notizia che avrebbe potuto, o dovuto, secondo i punti di vista, innescare una reazione dei mercati, soprattutto di Wall Street, che ancora non si vede.<break time="300ms" /> <bookmark mark="periodEnd_002" /> <break time="300ms" /></p><p> <break time="600ms" />Le parole con cui lo stesso Powell ha spiegato la notizia avrebbero dovuto preoccupare ulteriormente gli investitori e generare ulteriori fibrillazioni.<break time="300ms" /> <bookmark mark="periodEnd_003" /> <break time="300ms" /> In sostanza, ha detto esplicitamente che la ragione dell'apertura dell'inchiesta, i costi ritenuti eccessivi per la ristrutturazione della sede centrale della banca a Washington, a cui si somma l'ipotesi che abbia mentito al Congresso in merito alla portata del progetto, sarebbe solo un espediente usato dall'amministrazione Trump per colpirlo.<break time="300ms" /> <bookmark mark="periodEnd_004" /> <break time="300ms" /> Secondo Powell, il vero capo d'accusa sarebbe un altro: fissare i tassi di interesse in base alle proprie migliori valutazioni e non in base alle preferenze del presidente. <break time="300ms" /> <bookmark mark="periodEnd_005" /> <break time="300ms" /> Ovvero, Trump colpirebbe Powell perché fa il suo mestiere di banchiere centrale, nel rispetto dei principi fondamentali dell'autonomia e dell'indipendenza. <break time="300ms" /> <bookmark mark="periodEnd_006" /> <break time="300ms" /></p><p><break time="600ms" />Il presidente degli Stati Uniti d'America contro il presidente della Federal Reserve, con la complicità del Dipartimento di Giustizia. <break time="300ms" /><bookmark mark="periodEnd_007" /><break time="300ms" />Il sistema finanziario americano ha nell'indipendenza della Federal Reserve un requisito di garanzia fondamentale.<break time="300ms" /><bookmark mark="periodEnd_008" /><break time="300ms" />Gli attacchi di Trump a Powell sono stati quotidiani, continui e tutti esplicitamente motivati dall'insoddisfazione per le decisioni prese, o non prese, dalla Federal Reserve sui tassi. <bookmark mark="sentenceEnd_000" /><break time="600ms" /></p></prosody></voice></speak>
With this SSML, only "soundLogoEnd" bookmark is emitted.
<speak version="1.0" xmlns="http://www.w3.org/2001/10/synthesis" xmlns:mstts="https://www.w3.org/2001/mstts" xml:lang="it-IT"><voice name="it-IT-ElsaNeural"><prosody rate="5%"><bookmark mark="soundLogoEnd"/><emphasis level="strong"><lang xml:lang="en-US">Trump</lang> contro la <lang xml:lang="en-US">Federal Reserve</lang> di <lang xml:lang="en-US">Powell</lang>, ma i mercati per ora non si muovono: cosa succede a <lang xml:lang="en-US">Wall Street</lang>?</emphasis><break time="2400ms" /><bookmark mark="titleEnd" /><p>Non è più la <lang xml:lang="en-US">Federal Reserve</lang> di una volta e, verrebbe da dire, non ci sono più i mercati di una volta.<break time="300ms"/><bookmark mark="periodEnd_000" /><break time="300ms"/> O, almeno, da quando c'è <lang xml:lang="en-US">Donald Trump</lang> alla Casa Bianca, non si muovono più secondo le attese di chi è abituato a leggerli secondo una logica di azione e reazione, che si verifica sempre con meno frequenza.<break time="300ms"/><bookmark mark="periodEnd_001"/><break time="300ms"/> La notizia dell'apertura di un'indagine del Dipartimento di Giustizia degli Stati Uniti d'America sul presidente della <lang xml:lang="en-US">Federal Reserve</lang>, Jerome <lang xml:lang="en-US">Powell</lang>, è, di per sé, una notizia che avrebbe potuto, o dovuto, secondo i punti di vista, innescare una reazione dei mercati, soprattutto di <lang xml:lang="en-US">Wall Street</lang>, che ancora non si vede.<break time="300ms"/><bookmark mark="periodEnd_002"/><break time="300ms"/></p><p><break time="600ms"/>Le parole con cui lo stesso <lang xml:lang="en-US">Powell</lang> ha spiegato la notizia avrebbero dovuto preoccupare ulteriormente gli investitori e generare ulteriori fibrillazioni.<break time="300ms"/><bookmark mark="periodEnd_003"/><break time="300ms"/> In sostanza, ha detto esplicitamente che la ragione dell'apertura dell'inchiesta, i costi ritenuti eccessivi per la ristrutturazione della sede centrale della banca a Washington, a cui si somma l'ipotesi che abbia mentito al Congresso in merito alla portata del progetto, sarebbe solo un espediente usato dall'amministrazione <lang xml:lang="en-US">Trump</lang> per colpirlo.<break time="300ms"/><bookmark mark="periodEnd_004"/><break time="300ms"/> Secondo <lang xml:lang="en-US">Powell</lang>, il vero capo d'accusa sarebbe un altro: fissare i tassi di interesse in base alle proprie migliori valutazioni e non in base alle preferenze del presidente.<break time="300ms"/><bookmark mark="periodEnd_005"/><break time="300ms"/> Ovvero, <lang xml:lang="en-US">Trump</lang> colpirebbe <lang xml:lang="en-US">Powell</lang> perché fa il suo mestiere di banchiere centrale, nel rispetto dei principi fondamentali dell'autonomia e dell'indipendenza.<break time="300ms"/><bookmark mark="periodEnd_006"/><break time="300ms"/></p><p><break time="600ms"/>Il presidente degli Stati Uniti contro il presidente della <lang xml:lang="en-US">Federal Reserve</lang>, con la complicità del Dipartimento di Giustizia.<break time="300ms"/><bookmark mark="periodEnd_007"/><break time="300ms"/> Il sistema finanziario americano ha nell'indipendenza della <lang xml:lang="en-US">Federal Reserve</lang> un requisito di garanzia fondamentale.<break time="300ms"/><bookmark mark="periodEnd_008"/><break time="300ms"/> Gli attacchi di <lang xml:lang="en-US">Trump</lang> a <lang xml:lang="en-US">Powell</lang> sono stati quotidiani, continui e tutti esplicitamente motivati dall'insoddisfazione per le decisioni prese, o non prese, dalla <lang xml:lang="en-US">Federal Reserve</lang> sui tassi. <bookmark mark="sentenceEnd_000"/><break time="600ms"/></p></prosody></voice></speak>
The only big difference between the two, is the presence of a <lang> tag, that we use to change pronunciation.
So, I tried focusing on the "title" (what is contained within <emphasis>) and to the emission of the bookmark titleEnd.
These are the attempts I made. The checked ones are those that lead to the emission of titleEnd:
Only one <lang>, around the words "Wall Street"
Only one <lang>, around the word "Trump"
Only one <lang>, around the word "Powell"
Two <lang>s, around "Wall Street" and "Powell"
Two <lang>s, around "Wall Street" and "Federal Reserve"
Two <lang>s, around "Wall Street" and "Trump"
One <lang> per <emphasis>, multiple emphases tags
One <lang> per <emphasis>, multiple emphases tags, everything contained in a <p>
One <lang> per <emphasis>, multiple emphases tags divided with some text (</emphasis> text <emphasis>)
One <lang> per <emphasis>, multiple emphases tags, closing the <p> after each </emphasis>
Whole title contained in a <s>
One <s> per <lang>, containing the <lang>
<s xml:lang> instead of <lang xml:lang>
<s xml:lang> but no <emphasis>
Finally, it came across our minds that changing the voice to a different language, might change model or something like that, which means that the chunks get sticked together, but for some reason, the tags do not get emitted after the first <lang>. So, I tried changing the voice to a Multilingual one and it worked: all the bookmarks were being emitted correctly.
This issue - perhaps sightly different - happens as well with the voice it-IT-Isabella:DragonHDLatestNeural, which I expect to be one of the best.
Sadly, Azure doesn't have many Female multilingual voices, but Isabella.
I know this won't likely get fixed (seeing the amount of bugs in this repository gives me not very much hopes...), but I'm still trying.
Version
1.46.0
What browser/platform are you seeing the problem on?
What happened?
We are using the following Italian voices:
it-IT-ElsaNeuralit-IT-IsabellaNeuralit-IT-DiegoNeuralit-IT-MarcelloMultilingualNeuralit-IT-IsabellaMultilingualNeuralWe have several
<bookmark mark="..." />inside the SSML we generate, which we use as advertising cuepoints.This is the code we are using:
I've spent the past 6 hours by doing tons of attempts into understanding why they weren't being emitted correctly.
I tried using two different SSMLs, all from the same source - an Italian newspaper article.
Note
All the SSMLs are one liners and compacted. This is because, from previous attempts, giving Azure a beautified XML, might lead it to have some kind of an unpredictable behavior, depending on the used tool. I hope to be wrong and that I only didn't find yet the reason.
Nonetheless, I suggest to see them with a wrap mode enabled, instead of formatting them, and working with them on one line.
Note
You may see a bookmark called
soundLogoEnd. That's a mark after an<audio>tag that I removed in the examples. Removing it doesn't change the outcome.With this SSML, bookmarks get emitted correctly.
With this SSML, only
"soundLogoEnd"bookmark is emitted.The only big difference between the two, is the presence of a
<lang>tag, that we use to change pronunciation.So, I tried focusing on the "title" (what is contained within
<emphasis>) and to the emission of the bookmarktitleEnd.These are the attempts I made. The checked ones are those that lead to the emission of
titleEnd:<lang>, around the words "Wall Street"<lang>, around the word "Trump"<lang>, around the word "Powell"<lang>s, around "Wall Street" and "Powell"<lang>s, around "Wall Street" and "Federal Reserve"<lang>s, around "Wall Street" and "Trump"<lang>per<emphasis>, multiple emphases tags<lang>per<emphasis>, multiple emphases tags, everything contained in a<p><lang>per<emphasis>, multiple emphases tags divided with some text (</emphasis> text <emphasis>)<lang>per<emphasis>, multiple emphases tags, closing the<p>after each</emphasis><s><s>per<lang>, containing the<lang><s xml:lang>instead of<lang xml:lang><s xml:lang>but no<emphasis>Finally, it came across our minds that changing the voice to a different language, might change model or something like that, which means that the chunks get sticked together, but for some reason, the tags do not get emitted after the first
<lang>. So, I tried changing the voice to a Multilingual one and it worked: all the bookmarks were being emitted correctly.This issue - perhaps sightly different - happens as well with the voice
it-IT-Isabella:DragonHDLatestNeural, which I expect to be one of the best.Sadly, Azure doesn't have many Female multilingual voices, but Isabella.
I know this won't likely get fixed (seeing the amount of bugs in this repository gives me not very much hopes...), but I'm still trying.
Version
1.46.0
What browser/platform are you seeing the problem on?
Node
Relevant log output