Szerző: KUN ZSUZSI
2023.01.13.
A VALL-E egy neurális nyelvmodell (neural coding language), amely a Meta által 2022 októberében bemutatott EnCodec technológiájára épül. Ez a tömörítési megoldás az elterjedten alkalmazott MP3 formátumhoz képest 10-szeres tömörítést tesz lehetővé audiofájlokon a mesterséges intelligencia használatával. A Meta szerint erre a Metaverzum információinak tárolása miatt van szükség, de a VALL-E fejlesztése is azt mutatja, hogy más területeken is alkalmazható.
Az intelligens beszédszintetizátor a hangminta alapján felismert sajátosságokat képes alkalmazni más szövegrészletek felolvasásakor. Más módszerekkel ellentétben nem hullámformák manipulációját aknázza ki, hanem helyette diszkrét audiokódokat generál a szöveg és az akusztikus jellemzők alapján.
Részleteiben elemzi a beszédmintát, a jellemzőket pedig az EnCodec segítségével összetevőnként (tokenenként) rögzíti, majd ezeket alkalmazza a felolvasáskor. Erre több példa is elérhető a VALL-E weboldalán, ahol a Meta által összeállított LibriLight hangkönyvtáron kiképzett intelligencia egy sor minta felolvasásával demonstrálja tudását...
Nincsenek megjegyzések:
Megjegyzés küldése
Megjegyzés: Megjegyzéseket csak a blog tagjai írhatnak a blogba.