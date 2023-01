A VALL-E nevű, neurális kódnyelvi modellnek mindössze három másodpercnyi hanganyagra van szüksége ahhoz, hogy reprodukálja a beszélő hangját – számolt be róla a Gizomodo tudományos hírportál.

A mesterséges intelligencián alapuló eszköz nemcsak a hangszínt képes leutánozni, hanem a beszélő érzelmi hullámzását és akár a szoba akusztikáját is élethűen tudja visszaadni.

Surprised there isn’t more chatter around VALL-E

This new model by @Microsoft can generate speech in any voice after only hearing a 3s sample of that voice 🤯

Demo → https://t.co/GgFO6kWKha pic.twitter.com/JY88vf4lYc

— Steven Tey (@steventey) January 9, 2023