A Rochester Egyetem kutatói az eredeti hanganyag digitális reprezentációját hozták létre az MP3-nál 1000x kisebb méretben. A zene, egy 20 másodperces klarinét szóló, kevesebb mint 1kB méretben fér el és két újítás tette lehetővé a megalkotását: a klarinét fizikai modellezése és a zenész fizikai modellezése együttesen.

A bejelentés az International Conference on Acoustics Speech and Signal Processing konferencián történt Las Vegas-ban. Amint a bejelentésben elhangzott: a módszer még nem tökéletes, az eredeti felvételt egyelőre nem tudják tökéletesen reprodukálni, a kutatók szerint de egyre közelebb és közelebb járnak a célhoz.

“A módszer lényege tulajdonképpen a zene emberi módon történő előadásának a reprodukciója”, mondta Mark Bocko professzor, a technológia egyik fejlesztője. “Az ember a nyelvét, száját, torkát és ujjait csak megadott sebességgel tudja használni, tehát elméletben nincs szükség a hang olyan gyors mintavételezésére mint az pl. a CD technológia esetén történik. (A CD esetében másodpercenként 44100 mintavételezés történik – a szerk.). Ennek eredménye, hogy úgy gondoljuk, megtaláltuk az abszolút minimum mennyiségű adatot, amellyel egy zenei előadás reprodukálható”.

A lejátszás folyamán a számítógép reprodukálja az eredeti előadást, mindazokat az adatokat felhasználva amit a klarinétről és a klarinét használatáról tudunk. Két diák segítségével a klarinét minden hangot befolyásoló fizikai tulajdonságát felmérték, majd egy olyan számítógépes modellt alkalmaztak, mely a virtuális hangszert teljesen a valós világból származó akusztikai méréseken alapulva építi meg.

A csapat következő lépése a virtuális zenész megalkotása volt a virtuális klarinét számára. Modellezték a játékos – hangszer interakciót, annak minden fizikai paraméterével együtt. Végül a számítógép rögzítette a játékos mozdulatait és száj/nyelv mozgásait a felvétellel együtt – ezeknek a mozdulatoknak a sorozatából és a virtuális hangszerből voltak képesek megalkotni az eredményt.

A módszer még nem ad tökéletes másolatot, bár az nagyon közeli az eredetihez. Jelenleg a nyelv mozgásainak a modellezésére koncentrálnak, a staccato hangok minél élethűbbé tételének érdekében.

A módszer további finomításainak következtében a kutatók szándékai szerint virtuális zenészek jöhetnek létre, azáltal, hogy a játékosok mozdulatait szintetizátorokba integrálják. Bocko elmondása szerint a módszerrel az emberi torok – és ennél fogva a hang – modellezése is megoldható, bár sokkal nagyobb falat.

Jelenleg pusztán egyetlen hangszert képesek kezelni egyidőben, de az egyetemen további kutatók dolgoznak az egyes hangszerek elkülönítésén egy előadásban vagy mix-ben, majd az így elkülönített egyedi hangszerek és emberi hangok egyedi modellezése és végső keverése során a komplex zene előállításán.

Bocko véleménye szerint, az akusztikai mérések fejlődésével a szintézis algoritmusok is egyre pontosabbak lesznek, és véleménye szerint a módszer nagy valószínűséggel az elméletileg lehetséges maximális tömörítést adja. “A zene jövője talán nem az előadók felvételében rejlik, hanem virtuális másolatuk létrehozásában” – zárta a beszédét Bocko.

Az angol nyelvű cikket itt olvashatod

 

Személyes vélemény: a fizikai modellezés nem újkeletű dolog a zenében, a piacon jópár fizikai modellezésen alapuló hangszer hozzáférhető (pl. Korg Z1 vagy az Apple Logic-ban megtalálható Sculpture). Az egyszerűbb hangszereket (mint a klarinét), nem nehéz modellezni – minden csak a rendelkezésre álló számítási teljesítményen és a modell komplexitásán múlik.

De ne is ugorjunk neki az emberi hangnak, maradjunk a két legkomplexebb hanggal rendelkező hangszernél, a zongoránál és gitárnál. Itt már olyan mennyiségű paramétert kell modellezni, ami a modern technikával is komoly kihívást jelent. Ha megvan a hangszer, akkor ráadásul ott a virtuális előadó, ami a nagyobb falat. A világon többszáz zseniális gitáros van, mindegyik saját egyedi technikával, más-más hangot képes előcsalni ugyanabból a hangszerből. Modellezzük a Föld komplett lakosságát? Ne már… Vagy csak a legjobb előadókat és játékosokat, és veszítsük el a zenészek 99,999%-át? Ez sem tűnik járható útnak…

Természetesen adott zenei előadás reprodukciójára alkalmas lehet a módszer, de annyi munkát követel az előadótól, amennyi (egyelőre) egyszerűen nem éri meg. El tudjátok képzelni amint egy világhírű operaénekes különféle detektorok között adja elő számtalanszor ugyanazt a dalt újra és újra, csak azért, hogy létrejöjjön a világ legkisebb méretű digitális zenefájlja? Én nem. Egyelőre piaci potenciált sem látok benne, bár extrém ritka esetekben mégis lehet benne: pl. de jó lett volna lemodellezni Pavarotti hangját a halála előtt

Az emberi hang modellezésére már évek óta rendelkezésre áll a Yamaha Vocaloid technológiája és az arra épülő egyedi virtuális énekesek. Természetesen a személyi számítógépek jelen fejlettségi szintjén még az esetlegesen rendelkezésre álló csúcstechnika és fejlett algoritmusok mellett is olyan korlátokkal kell szembenéznünk, ami a mindennapos használatot kizárja. Amennyiben a Moore törvény továbbra is fennmarad (amiből következik, hogy a számítási teljesítmény 18 havonta megduplázódik – de könnyen lehet, hogy hamarosan megdől és még gyorsabb ütemű fejlődés válik elérhetővé), akkor is legalább 1 évtizedre lesz szükség egy négytagú zenekar előadásának a virtuális előállítására – amennyiben azt generálni akarjuk és nem csak simán “rögzíteni”. Tehát míg a fáradtságos munkával előállított reprodukciónak lehet realitása akár már a közeljövőben is, addig a generatív zene igencsak messzi távlatnak tűnik.

Itt érdemes megemlíteni a Musikmesse-n bemutatott Celemony DNA technológia idevágó hatását is. Minek szarakodni egy komplett tudóscsoportnak a zene elemeinek szétválasztásán, ha az az év végére valóban realitásnak bizonyul? Jobban tennék a Rochester Egyetem kutatói, ha kiruccannának Németországba és valamilyen együttműködés keretében próbálnák meg a két technológiát összeházasítani.

Nézzük a másik oldalt – a már kész zene reprodukcióját. Ami a leginkább figyelemre méltó a bejelentésben, az számomra nem a fizikai modellezés “újrafeltalálása”. Logikusan belegondolva, az adott zene reprodukciójához szükséges abszolút minimum információkorlátra való törvény igaznak tűnik, amennyiben pusztán a humán előadókat nézzük. De itt is megbújik a kisördög: ha pl. a jungle, drum and bass, hardcore techno stílusokat nézzük, akkor tele vannak olyan elemekkel, melyeket emberi játékmóddal, pusztán a fizikai korlátok miatt nem lehetséges visszaadni. Egy ilyen fizikai modellezésen alapuló algoritmus képtelen lenne eszerint betömöríteni az ígért 1000x kisebb méretre az elmúlt 10 év zenei termésének nagyrészét.

Bárhogyan is alakuljon a módszer jövője, a bejelentésen alapuló várakozásokat durván túlzónak érzem. Nem tudom ti hogy vagytok vele, de a zenében az algoritmikus generálással pont az emberi tényező veszik el, az, amitől Pavarottit 100x is meg lehetett nézni/hallgatni – ugyanolyan felemelő élményt adott, mégsem volt ugyanaz. És senki ne jöjjön itt a véletlenszerűség beépítésével az algoritmusba – ha Pavarotti véletlenül énekelte ugyanazt a 100 dalt csodálatosan, akkor ott ette meg az egészet a fene. Szerintetek?

Zene az MP3-nál 1000x kisebb méretben
Cimke:                                                                     

11 thoughts on “Zene az MP3-nál 1000x kisebb méretben

  • 2008-04-15 at 23:26
    Permalink

    No, akkor had tegyek fel egy olyan kérdést, amit csak egy zenész tehet fel, és ha a fizikusok kinevetnek, akkor is! Csak hogy a 192kHz, a felesleges adatok, és a tökéletes hangzás kapcsolatát megértsem! Vajon az emberi fülnek nagyságrendileg mekkora lehet a “mintavételezése”?
    Mert ugye a grafikát is azért finomítják a végtelenségig, mert az emberi szemet veszik alapul, és igen messze van a techológia attól, hogy megközelítse azt a felbontást és színmélységet, amit érzékelni képesek vagyunk.
    Nekem persze azt is hiába magyarázza akárki, hogy a klarinét egy egyszerű hangszer lemodellezés szempontjából, mert az áramló levegő, a cső hossza, alakja, és a hanghullámok mellett a hangszertestnek is vannak saját rezgései, amit ugyancsak minden egyes ráaggatott fém alkatrész befolyásol. A játékosnak is ott van minden fizikai jellemzője, nem csak a tüdeje, torka, és szája, de az összes testüreg, a csont, és a hús is részt vesznek a játékban, amik a tökéletes hangzást létrehozzák, stb…
    Ezúton kívánok tehát további jó modellezgetést azoknak a tudósoknak! Kicsit szkeptikus vagyok, azt hiszem.

    Válasz
  • 2008-04-07 at 00:01
    Permalink

    Bár elvben igaz, hogy ma már a tárhely roppant olcsó, de a sávszélességre mindig nagyobb és nagyobb igény van. Másrészt a pazarlásnak én személy szerint nagyon ellene vagyok.

    De hogy a száraz tényeknél maradjak, pl. a mobilos cégek körében nagyon népszerű lenne a megoldás. Én továbbra sem a méretcsökkentésben látom a projekt értelmét, hanem a minimum információkorlátra vonatkozó algoritmusban. Ezt továbbfejlesztve akár új videótömörítési eljárásokat, hatékonyabb gesztus interfészeket, stb lehet a jövőben előállítani.

    Vagy pl. végre bizonyítani lehetne, hogy van-e értelme a 192kHz-es mintavételezésnek 🙂

    Válasz
  • 2008-04-06 at 14:20
    Permalink

    Miért ebből az irányból közelítik meg?

    Ma már szinte ingyen van a tárhely és nagyon durva a sávszélesség. Végre annak örülünk, hogy wav-ban tölthetjük a zenéket az “mp3” shopokból és egyáltalán nem probléma, hogy 60-100 MB méretű fájlokat kell letölteni és (amúgy is audio cd-n) tárolni. Én az eredeti wav-ot kérem 100 MB-ban, nem akarom “ugyanazt” a zenét 30 kB-ban megkapni.

    Másik oldalról viszont érdekes kísérlet az emberek és a hangszerek modellezése, de akkor ne az 1kB-tal jöjjenek, hogy mekkora előny.

    Válasz
  • 2008-04-05 at 01:00
    Permalink

    Tegnap átálltunk a +2 GMT időszámításra, ez az egyetlen változás. Lehet hogy emiatt voltak az elvesztett post-ok, de muszáj volt a jövőbeni cikkek és hozzászólások miatt. Ha emiatt elvesztek post-ok az nem szándékos, de sem a spam szűrőben, sem máshol nem látunk beragadt hozzászólásokat.

    Elnézést az okozott kellemetlenségért, utánajárnunk a történteknek.

    Válasz
  • 2008-04-05 at 00:45
    Permalink

    nekem 2 postom tünt el , egy a virginesből is

    Válasz
  • 2008-04-04 at 09:14
    Permalink

    de jó amit gépeltem tegnap hova lett?

    Válasz
  • 2008-04-03 at 20:08
    Permalink

    Nem diplomamunka a cikk, a brit nemzeti fejlesztési hatóság támogatta a kutatást, gondolom kellett már valami eredményt felmutatni. És nem véletlen, hogy klarinéttal demóztak, aminek a fizikai modellje, az üreges test, melynek egyik végéről hullámok indulnak a másik vége felé a legelső fizikai modell volt, ennél fogva a legnagyobb tapasztalat és szakirodalom áll mögötte.

    Bárhogy is alakuljon a dolog, a kutatás során kifejlesztett fizikai modellező algoritmusok és modellek biztosan értelmesen felhasználhatók.

    Válasz
  • 2008-04-03 at 20:00
    Permalink

    szvsz audioval belátható időn belül már semmi lényeges dolog nem fog történni, erősítőnek bejön pár új class-d chip azis azért hogy türéshatárt növeljenek., más lényeges dolgot nem igazán tudok elképzelni. Nem mintha eddig olyan kiemelt ágazat lett volna de innentől csak lejebb lesz, talán a múlt érdekesebb is 🙂 EZ a cik kis vmi diplomamunkáról szól ha jól tévedek.

    Válasz
  • 2008-04-03 at 19:55
    Permalink

    és az analóg szaturációval mi lesz 😀

    Válasz
  • 2008-04-03 at 11:44
    Permalink

    Ezért is linkeltem a pontos Wikipedia definíciót és raktam mögé zárójelbe a Moore törvényből levont következtetést. Javítom a cikket, hogy ne legyen félreérthető… kösz.

    Válasz
  • 2008-04-03 at 07:50
    Permalink

    Amennyiben a Moore törvény (ami kimondja, hogy a számítási teljesítmény 18 havonta megduplázódik) […]

    A Moore törvény nem a számítási teljesítményről szól, hanem az integrált áramkörök bonyolultságáról (ugyan ez kapcsolódik a tranzisztorszámhoz, ami kapcsolódik a teljesítményhez… de akkor is, így a pontos).

    Válasz

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöljük.