2023. január 13., péntek

BÁRKI HANGJÁT KÉPES UTÁNOZNI A MICROSOFT ÚJ MESTERSÉGES INTELLIGENCIÁJA

QUBIT
Szerző: KUN ZSUZSI
2023.01.13.


3 másodperc alatt bárkitől eltanulja a beszédstílusát a Microsoft által fejlesztett VALL-E intelligenciamodell, írja az Ars Technica. Ezzel komplett szövegek felolvasása válik lehetségessé anélkül, hogy valódi embereket kellene alkalmazni. A technológia pedig lehetőséget ad arra is, hogy egy felvétel tartalmát akár utólag szerkesszék.

A VALL-E egy neurális nyelvmodell (neural coding language), amely a Meta által 2022 októberében bemutatott EnCodec technológiájára épül. Ez a tömörítési megoldás az elterjedten alkalmazott MP3 formátumhoz képest 10-szeres tömörítést tesz lehetővé audiofájlokon a mesterséges intelligencia használatával. A Meta szerint erre a Metaverzum információinak tárolása miatt van szükség, de a VALL-E fejlesztése is azt mutatja, hogy más területeken is alkalmazható.

Az intelligens beszédszintetizátor a hangminta alapján felismert sajátosságokat képes alkalmazni más szövegrészletek felolvasásakor. Más módszerekkel ellentétben nem hullámformák manipulációját aknázza ki, hanem helyette diszkrét audiokódokat generál a szöveg és az akusztikus jellemzők alapján.

Részleteiben elemzi a beszédmintát, a jellemzőket pedig az EnCodec segítségével összetevőnként (tokenenként) rögzíti, majd ezeket alkalmazza a felolvasáskor. Erre több példa is elérhető a VALL-E weboldalán, ahol a Meta által összeállított LibriLight hangkönyvtáron kiképzett intelligencia egy sor minta felolvasásával demonstrálja tudását...

Nincsenek megjegyzések:

Megjegyzés küldése

Megjegyzés: Megjegyzéseket csak a blog tagjai írhatnak a blogba.