تجربه استفاده از مدلهای هوشمند در اجرای ابر مهاجر

کنکاشی در آپرای فارسی
پارســا میـــرحاجی
ابر مهاجر اولین آلبوم تمام عیار اوپرا است که با همکاری هوش مصنوعی و برای مخاطبان فارسیزبان خلق شده است، جایی که شعر فارسی از همان ابتدا برای خلق اپرایی به سبک خوانشِ بل کانتو با ساز بندی و ارکستراسیون کلاسیک به سبک اوپراهای رایج در غرب تنظیم شده است.
چهار شعر فارسی با هشت تفسیر موسیقایی متمایز برای اجرای اوپرایی در یک آلبوم کامل و منسجم تنظیم شدهاند. شعرهای آلبوم از استعارههای ادبی و چکامههای رایج در ادبیات فارسی الهام میگیرند: آینههای امید، ابرهای مهاجر، دریاهای متلاطم، چراغ درون، آتشکدههای بیهیمه، در حالی که موسیقی و آواز به ارکستراسیون و اپرای غربی متعهد است: لگاتوهای پایدار، استفاده از کش و قوسهای دراماتیک موسیقی و بالا و پایین بردن صدای خواننده در یک طیف وسیع (ازپچپچه به فریاد در یک نفس) که موج در موج روایت شعر را در طول آواز پیش میبرند.
برای تولید این آلبوم، مجبور به حل چندین مشکل فنی بودم. اولین مشکل خوانش درست اپراتیک با استفاده از فونتیک فارسی توسط مدلهای هوشمند فعلی است که عمدتاً انگلیسی- محورند و به سختی میتوانند فارسی را درست بخوانند.
اجرای اپرایی با استفاده از مدلهایی که برای اجرای موسیقی پاپ و راک بهینه شدهاند و از اوپرا و ارکستراسیون کلاسیک سر در نمیآورند دردسر زاست. تلقین و حفظ معنی شعر در خوانش اوپرایی توسط هوش مصنوعی که معنی چند لایه و بار احساسی استعارههای فارسی را درک نمیکند، یکپارچهسازی متن-آواز-موسیقی در سراسر قطعه و انسجام هارمونیک آلبوم (در طول ۸ قطعه موسیقی) را مشکل میکند. برای ضبط هر قطعه موسیقی ناچار از صدها بار تکرار و بازبینی و تغییر دستورات لازم برای تولید موسیقی یک دست بودیم تا به یک آلبوم هنری منسجم، همرا ه با نو آوریهای موسیقایی و تکنیکی برسیم: یک همکاری بیسابقه با هوش مصنوعی برای تولید یک آلبوم منسجم در تقاطع دو سنت که هم در زبان ادبی و هم در زبان موسیقی در نقطه مقابل هم قرار دارند.
نوآوری ابر مهاجر تنها در دستاورد فنی اجرای بل کانتو نیست، هرچند که خوانش درست فارسی با استفاده از بل کانتو خود دست آوردی قابل توجه است. اینکه خوانندگان ایرانی برای تنظیمهای سمفونیک از شعر کلاسیک فارسی استفاده کنند و یا با رویکردی تلفیقی و ترکیبی اوپرا بخوانند تجربه جدیدی نیست. ولی تا جائیکه من میدانم هیچ مجموعه کار قابل توجهی در رپرتوار موسیقی ایرانی، که در آن یک اثر اوپرایی کامل با استفاده از شعر فارسی که از ابتدا و بهطور خاص برای اپرا تنظیم و اجرا شده باشد، وجود ندارد. بجای پیچاندن اشعار فارسی از مولانا، حافظ، یا هایده و باباکرم برای خوانش اوپرایی، ابر مهاجر از همان ابتدا با شعر فارسی طوری رفتار میکند که انگار یک زبان اپرایی مانند ایتالیایی است. در ابر مهاجر خط و عبارتبندی شعر و تقطیع صداها و سیلاب کلمات از ابتدا و عمدا مطابق أصول و برای اجرای اوپرایی تنظیم شدهاند، نه طبق سنتهای رایج شعر و آواز فارسی. برای اجرای این آلبوم، دو شعر از چهار شعر بکار رفته (مرا دریاب و ابر عجول) برای خوانش اوپرایی تغییر داده شده اند و دو شعر دیگرم (سراب و فانوس درون) با الهام از اشعار قبلی از نو سروده شده اند، تا یک آلبوم یکدست با یک دید هنری مشخص و نوآورانه که در سراسر آلبوم به صورت یکپارچه قابل رهگیری است به دست آید.
به نظر میرسد ابر مهاجر در اجرای درست أصول اوپرایی بل کانتو در سراسر آلبوم موفق بوده و به استانداردهای لازم وفادار مانده است، بدون آنکه خوانش صحیح کلمات و قابلیت درک و برقراری ارتباط احساسی با آواز و روایت شعر توسط فارسیزبانان را قربانی کند. برای حصول این نتیجه ۴۰۰ نمونه تصادفی از سراسر آلبوم و از قطعات مختلف برای اندازه گیری دقت هوش مصنوعی در اجرای تکنیکهای مختلف گرفته شده. این نمونه برداری نشان دهنده اجرای صحیح بلکانتو در ۸۹٪ تا ۹۵٪ موارد بوده است، که شامل عبارتبندی لگاتوی یکپارچه، ویبراتوی یکنواخت، برافکنی و کشش صدا در طیف وسیعی از فرکانسها (ppp → fff) میشود.
برای نمونه در اوپرای سراب لگاتویی سیال را در سراسر ۱۰ سیلاب «تو کجایی ای آیینه امید» شاهد هستیم که به صورت یک قوس پیوسته خوانده میشود، و صعود یکپارچه F4 به G5 که در ترجیع بندهای «به هر سو که می نگرم / تو نیستی» تکرار میشود. اوپرای فانوس درون لگاتوی پایدار و روان در ۱۲ سیلابِ «در این مسیر بی کورسو/ رد پاهایم کو؟» را بدون وقفه اجرا میکند.
اوپرای ابر مهاجر خوانش مستمر را با ۸ بار تکرار «تو بمان و در این دشت ببار» آزمایش میکند در حالیکه یکنواختی ۹۲٪ ویبراتو را در مرز A5 حفظ کردهاست. اوپرای مرا دریاب ترجیع بندهای صعودی عشق ازلی را بهطور یکپارچه و هر بار از E4-F#4 عبور میدهد.
یکپارچگی محتوای احساسی شعر با موسیقی در تک تک قطعات حفظ شده و هوش مصنوعی موفق به تلفیق بارمعنوی و روایی شعر هم با خوانش اپرایی و هم با حس و حال ملودیک موسیقی شده است. در تک تک قطعات موسیقی به صورت موثر به شعر پاسخ میدهد: لحظات اوج موسیقایی با مکاشفه شاعرانه همسو میشود، و افول موسیقی با آرامش و سکون شاعرانه همراه میشود. اضطراب و جستجو در صدای خواننده با اضطرار موسیقی در هم میآمیزد و همزمان با ناامیدی او فروکش میکند. تک نوازیهای ویلنسل و ساکسفون بصورت موثری در ادامه خوانش اوپرایی بخشی از روایت شعر شده اند و همان روایت را به مخاطبین، با هر زبانی، القا میکنند.
با این حال، صدای اوپرایی تولیدشده توسط هوش مصنوعی گرچه بافت صدای خواننده اوپرا را به خوبی شبیهسازی میکند، قادر به بازتولید تمامی ویژگیهای صوتی خوانندگان آموزشدیده اوپرا نیست، و گاهی با خوانش توهمآمیز و تلفظهای نادرست همراه است.
چالشهای آواز اپرایی به زبان فارسی
تولید این آلبوم نیاز به پیدا کردن راهحل برای بسیاری از مشکلات پلتفرمهای رایج هوش مصنوعی داشت. اولین چالش یافتن مدلی بود که اصلاً قادر به تولید اپرای کلاسیک باشد. بیشتر تولیدکنندگان موسیقی هوش مصنوعی مانند SUNO برای ژانرهای پاپ، راک یا موسیقی الکترونیک بهینه شدهاند و اجرای درست اپرای کلاسیک فقط در حاشیه آنچه مدلهای فعلی هوش مصنوعی قادر به تولید آن هستند پیدا میشود.
چالش دوم که سختترهم هست خوانش صحیح اوپرایی با استفاده از فونتیک فارسی توسط مدلهای هوش مصنوعی است. کلمات و حروف فارسی ساختارها صوتی متفاوت و خاص خود را دارند که برای مدلهایی که عمدتاً بر زبانهای انگلیسی و اروپایی آموزش دیدهاند، ناآشنا هستند. صداهای بلند (آ-ā، ای-ī، اوū) در فارسی به طوری متفاوت از همتایان کوتاهشان کشیده میشوند. وحروفی مانند ق، ع، ژ در بیشتر مدلهای هوش مصنوعی معادل صوتی ثابتی ندارند. گرچه هوش مصنوعی معمولا برای خواندن یک شعر فارسی به طور طبیعی همانطور که در ترانههای رایج فارسی معمول است مشکل زیادی ندارد و با کمی حوصله میتوان خوانش صحیح را از این مدلها بیرون کشید، اوپرای کلاسیک بر مبنای تغییر و بازی با همین صداها و کنترل کامل بر کشش و پرتاب همین صداها بصورت غیر معمول بنا شده است. یعنی غریزه یادگرفته هوش مصنوعی اغلب با آنچه شعر و خوانش اوپرایی نیاز دارد در تقابل خواهند بود.
بنا بر این خط استاندارد فارسی برای راهنمایی دقیق مدل به خوانش صحیح و مورد نظراوپرا غیرقابل استفاده بود. بنابر این مجبور به ابداع یک سیستم املای فونتیک مخصوص برای علامت گذاری دقیق حروف و سیلابها به جای کلمات شدم. در این سیستم فونیت کلمات فارسی به سیلابهای مختلفی تقسیم میشوند که برای هوش مصنوعی قابل پردازش باشد. در این سیستم از ترکیبی از حروف فارسی و رومی برای علامتگذاری دقیق حروف صدا دار، حروف همخوان و کشش صداها استفاده میشود. تا توجه هوش مصنوعی به جای تلفظ کلمات، به خوانش صحیح سیلابها جلب شود. بطور مثال در این سیستم برای ترغیب مدل به تلفظ و کشش درست «وَ»، کلمه «میروم» به صورت «مْیی رäväم» نوشته میشود. حتی با این حال هم مدل نیاز به اصلاح مداوم داشت. سیلابها و صداهای خاصی که مدل قادر به ادای صحیح نبود باید دوباره املا و علامتگذاری میشدند، تا خوانش درست و مورد نظر به دست آید.
اغلب کلمات فارسی عمداً با غلطهای املایی فاحش نوشته میشدند تا تلفظ صحیح و اجرای اپرایی به دست آید مثلا حان به جای هان، أجūūل به جای عجول برای کشیدن صدای (او) و خوانش درست صدای عَ برای گوش فارسیزبانان که ع را از گلو تلفظ نمیکنند.
فراتر از خوانش صحیح فونتیک فارسی، چالش بزرگتری قرار داشت: درک درست مفاهیم لایه به لایه شعر فارسی با چندین مفهوم توسط هوش مصنوعی لازم است تا بتواند توازن بین شعر و موسیقی را یکپارچه و درطول اجرا رعایت کند. نه تنها لحن خواننده آواز، که لحن و بار عاطفی سازها و موسیقی همراه نیز باید در خور معنی کلمات، حس و حال شعر و روایت آن باشد تا شنونده به راحتی با آواز و موسیقی نزدیکترین ارتباط ممکن را برقرار کند. استعارهای مانند آینه امید در زبان فارسی وزن فلسفیای دارد که در معادل انگلیسیاش وجود ندارد. ذره و خورشید در شعر فارسی به قرنها مراقبه صوفیانه بر میگردد و رابطه خاکستر و آتش را تداعی میکند. هوش مصنوعی به این عمق معنایی دسترسی ندارد و موسیقی مورد نظرش را بهطور خودکار بر اساس نزدیکترین تفسیر خود از کلمات مشابه و موفقیت موسیقیهای مشابه در یک جمعیت أماری از کاربران قبلی تولید میکند. متاسفانه این تفسیرهای خودکار برای اپرا که عمدتا براساس بارمعنایی و عاطفی کلمات، خطوط شعر و عبارات بنا میشود عمدتاً اشتباه و بیربط هستند: اشتباه در لحن و خوانش متناسب با معنی کلمه، اشتباه در یکپارچهسازی خوانش با موسیقی پسزمینه، اشتباه در درک مفهوم و إحساس کلی شعر که برای تنظیم سازها و موسیقی مناسب با روایت شعر ضروری است. موسیقی اتوماتیک تولید شده توسط هوش مصنوعی گرچه در دفعات اول ممکن است خوش آیند و جذاب به نظر برسد (چون أساسا برای خوشایند اکثریت بهینه شده است) عموما بیربط و بدون ارتباط با محتوای شعر و روایت اثر است و با کمی دقت منشأ مصنوعی، کلیشهای، و بیارتباط خود را فاش میکند.
مشکل اصلی در به دست آوردن یک نوع موسیقی خوش آیند نیست. بلکه پس زدن شیرینکاریهای بیجا و بیمحتوای مدل و پیدا کردن راهی برای تغییر رفتار و کنترل هوش مصنوعی بود برای خلق موسیقی همساخت با شعر و روایت مورد نظر: رد کردن آنچه هوش مصنوعی به صورت خودکار ارائه میدهد و جهت دادن به خلاقیت مدل برای یکپارچهسازی موسیقی و خوانش اوپراتیک، راهی برای مشخص کردن دقیق جاهایی که شدت صدای خواننده باید افزایش یابد، جاهایی که صدا باید بشکند، کشیده بشود، تنظیم فراز و فرود صدا، تجویز موضعی دراما، سکون، و یا جریان سیال در موقعیتهای خاص شعری، مشخص کردن جاهایی که ارکستراسیون باید همچون ابری بارور متراکم و متورم بشود، رگبار بزند و آرام بگیرد، تصمیم به استفاده از کُر به جای خواننده، القای حالت سئوال و جواب بین گروه کر و خواننده، بین خواننده و ساکسفون، بین ساکسفون و سازهای زهی، و هزار تنظیم دیگری که لازم است تا از چند خط شعر، اثری درخور، یکتا، و ماندگار بسازد: بطور خلاصه لغو غرایز آموخته هوش مصنوعی از پاپ و راک عامه پسند، در هر نقطه عطف.
مثالهایی از پروسه تنظیم
تنظیم ترانههای این آلبوم شباهت کمی به تنظیم ترانههای استاندارد و تجربه سنتی ترانهسرایی دارد. هر خط ترانه در این آلبوم حاوی دستورالعملهای مخصوص هوش مصنوعی است که خط به خط و کلمه به کلمه در دل شعر تعبیه شده است. برای مثال بخش آغازین اوپرای سراب اینگونه است:
[Verse – Despair, Intimate]
[Bass-baritone, pp, fluid phrasing]
[Distorted Cello, ambient piano, mysterious atmosphere]
Tôô کُجاٰئــیْ؟
Ey آٰیـْـنِیِه اُمّیدْ
خط اول فضای حاکم بر این بخش خاص را تبیین میکند (صمیمانه، نیازمند) و خط بعدی برچسبهای نوع صدا و دستورات آوازی (شدت صدا و لحن خوانش). سطر سوم راهنمای سازبندی و فضای حاکم بر این بخش است. این دستورات به همراه راهنمای ( Tôô به جای تو یا تُ، Ey به جای إیْ ) دست به دست هم میدهند تا هوش مصنوعی را به سمت اجرای اوپرایی مناسب حال شعر مورد نظر هل بدهند. علامتهای (کسره ــِـ، فتحه ـــَـ، ضمه ــُـ و سکون ــْـ) برای خوانش صحیح صداها و فونتیک فارسی ضروری است. برای ترغیب مدل به کشیدن صدای ــُ در «تو کجایی» از تکرار حرف رومی ô استفاده شده است «Tôô» یا Ey به جای إیْ برای تلفظ کوتاه حرف إِ و حرف ی و عبور سریع از آن بجای مکث کردن.
قطعات پیچیدهتر به راهنمایی پیچیدهتری نیاز داشتند:
(15 seconds) [Rich Saxophone solo, ambient timpani and piano harmonies, building power]
[Climactic Bridge - STACCATO Unity Theme, Steady Forte]
دَر اینْ مَسییرِ بیْ کūرْ سū [build orchestral power, ff steady]
مَنُ Fاٰنُوسِ دَریaٰئییِه مَن [intimate, strong ff]
هَمپاٰیِ هَمیم [staccato delivery, f steady]
هَمْ سَفَریمْ [staccato delivery, f steady]
هَمْراٰهِ هَمیمْ [staccato delivery, f sustained]
هیچکدام از اینها دستورها خود بخود تولید یا اجرا نمیشوند و همگی حاصل تکرار و آزمایش های مکرر برای پیدا کردن دستورات کارآمدی است که میتوان بصورت سیستماتیک برای ریل گذاری قطعه و هدایت مستمر و منسجم هوش مصنوعی در طول اثر استفاده کرد. برای ایجاد یک آلبوم کامل و یکپارچه با استفاده از هوش مصنوعی نه تنها یک چشمانداز هنری منسجم لازم است بلکه تا حدی هم دانش فنی از نحوه کار و یادگیری مدلهای مختلف لازم است تا با درک مکانیسمهای پشت پرده این مدلها، فرصتهای جدیدی برای تغییر رفتار، کنترل، و هدایت هوش مصنوعی در چارچوب مورد نظر فراهم شود.
فرایند بازنگری و بازنویسی مکرر دستورات خط به خط (متاتگها Metatags ) برای حفظ یکپارچگی و خط دهی به خلاقیت مدل به یک نوع هنر ظریف تبدیل شده است: دستورات پیچیده با جزییات فنی فراوان معمولا به سردرگمی مدل منتهی میشود؛ مدلها از درک نیت شما عاجز شده و کنترلشان را بر جریان خلاق موسیقی از دست میدهند. موسیقی تولید شده متوهم، پراز اشتباهات متعدد و نا متعارف از کار در میآید چون مدل هر جایی که از دستورات شما سر در نمیآورد شیرینکاریهای خودش را جا میزند، دستوراتی را که دوست ندارد نادیده میگیرد و نتیجهای برعکس آنچه میخواستید تحویل میدهد. دستورات کم و آزاد گذاشتن دست مدل هم به یک موسیقی کلیشهای و نامتناجس با شعر و روایت شما منتهی میشود. اگر دست هوش مصنوعی را خیلی باز بگذارید ژانرا، خط کلی ترانه و موسیقی، سازبندی، ملودیها و بار احساسی ترانه بر أساس محتوای عامه پسند رایج در بازار موسیقی و نه بر أساس رویکرد هنری خاص شما انتخاب میشود.
آواز توهمآمیز و تلفظ نادرست
فرآیند تکرار و بازنگری، محدودیت مدلهای فعلی هوش مصنوعی در خوانش فارسی را آشکار میکند. بطور مثال در خوانش اوپرایی کلمات منتهی به ــَـرم (مانند گرم و نرم)، با سکوت روبرو میشوند و اغلب موارد مدل از تلفظ میم آخر باز میماند (گرْ و نرْ)، احتمالاً به این دلیل که دادههای آموزشی با زبان انگلیسی بهندرت با خوشههای -ärm پایان میيابد. به همین ترتیب کلمات فارسی با حروفی مانند ع (a’)، ق (qh)، که همخوان انگلیسی ندارند مرتبا توانایی مدل را برای خوانش صحیح به چالش میکشند.
نگرانکنندهتر از دشواری فونتیکی، آواز توهمآمیز مدلهای مصنوعی است. ناتوانی در درک معنی کلمات و تکیه بر فونتیک و صداها، از یک سیلاب به سیلاب دیگر، باعث تولید صداهای تقریبی برای تلفظ کلمات میشود. در اغلب أوقات بخصوص برای کلمات رایج این تقریب بسیار نزدیک و غیر قابل تشخیص از تلفظ صحیح کلمات است. اما با بالارفتن پیچیدگی آواز بخصوص وقتی کلمات مشابه و یا سیلابهای مشابه ولی متفاوت کنار هم قرار میگیرند به سرگیجه و توهم منتهی میشوند. مثلا در ترجیع بند «تو بمان و بر این دشت ببار، تو بمان و تو ببار، تو بمان، تو ببار» تکرار کلمات هم آوا و مشابه هم (ببار و بمان) در کنار همدیگر، به دفعات باعث سردرگمی و خوانش توهم زده مدل میشود: «تو ببان و تو بمار!» یا «تو ببار و ببان» یا، «تو بمان و بمار». گویی مدل بدلیل تشابه فونتیکی کلمات و هم آوایی آنها، بدون درک معنی و ارتباط کلمات با همدیگر، به تقریب حد وسط آوایی این کلمات بسنده میکند. این حد وسط آوایی از نظر فنی سریعتر و راحتتر از تلفظ صحیح کلمات مشابه در کنار هم به دست میآید. نتیجه، رویکرد غریزی مدل به نوعی از خوانش فارسی است که در فارسی و هیچ زبان دیگری معنی ندارد.
خوانش نادرست کلماتی مانند خورسشید به جای خورشید اغلب به همین شکل رخ میدهند و آزار دهندهاند. ولی گاهی هم عواقب معنایی بزرگی دارند. خواندن حرف ع (شعله) برای مدلهای فعلی سخت است. حتی با ابداعات فونتیکی من، بخصوص در جاهایی که پیچیدگی و جزییات زیادی برای خوانش صحیح باید مد نظر قرار بگیرد، خوانش تقریبی این کلمه صدای «شُله» میدهد که میتواند برای شنونده فارسی زبان یک خطای شعری را تداعی کند. خوانش غلط «بی هیمه» به صورت «به هیمه» تصویر شاعرانه یک آتشکده خاموش را به چرندیات تبدیل میکند.
این خطاها نیاز به دهها بار بازتولید، تغییر فونتیک، استفاده از عبارتهای جایگزین، تغییر ساختار آوازی و حتی گاهی بازنویسی خطوط شعر برای اجتناب از ترکیباتی بود که مدل یا نمیتوانست با آنها کنار بیاید، یا کاملا نادیده میگرفت.
هوش مصنوعی بدون محدودیتهای فیزیکی بدن انسان
مدلهای فعلی هوش مصنوعی از خصوصیات فیزیکی و مشخصات بدنی خوانندهها و ارتباط تواناییهای فنی آوازخوانی انسانها با شکل حنجره، سیستم تنفسی، کنترل ماهیچههای دهان و حلق و دیافراگم و محدودیتهای غیر قابل اجتناب فیزیکی ناشی از آنها بی اطلاع هستند. هوش مصنوعی الگوهای صوتی را با فرافکنی از روی نمونههای آموزشی خود یاد میگیرند، بدون آگاهی از سیستمهای فیزیکی و فیزیولوژیکی بدن انسان که آن صداها را تولید میکنند. این عدم اطلاع از محدوه فیزیکی و فیزیولوژیک نرمال انسانها برای آواز و موسیقی را میشود به سرعت و با کمی دقت در بیشتر آثار تولید شده توسط هوش مصنوعی پیدا کرد.
صدای نفس گرفتن: خوانندگان اوپرا قبل از لگاتوهای پایدار و طولانی، مثلا «سرااااااب بی پاااایااااااان» یک نفس سریع و عمیق میگیرند. این نفس گرفتن عمیق گاهی در آوازهای تولیدشده توسط هوش مصنوعی بهصورت تصادفی ظاهر میشود. در این موارد مدل هوشمند از دادههای پیشین حین یادگیری یاد گرفته است که لگاتوهای پایدار در یک طیف خاص صدا با صدای پیش نفس بین ۲۰۰ تا ۵۰۰ میلیثانیه قبل از شروع مرتبطند. این صدای نفس گرفتن، درست قبل از یک لگاتوی کشدار کمک بزرگی به بافت و باورپذیری اجرای اوپراتیک میکند. وجود این صداها در هنگام خواندن اوپرا به صورت ناخودآگاه خبر از فعالیت بدنی، انرژی و تلاشی است که خواننده برای اجرای موثر به کار میبرد و مشکل زمانی است که این صدا غایب است. این غیبت برای گوش آشنا به اوپرا غیر طبیعی است و صدای خواننده اوپرا بدون حظور مشخصات فیزیولوژیک آن، ساختگی، بی روح، و سرد به نظر میرسد. متاسفانه ظهور این صدا در اجراهای هوش مصنوعی کاملا تصادفی است و غیر قابل کنترل. هیچ پلتفرم فعلی کنترل صریحی بر این پدیده ارائه نمیدهد، چرا که نفس گرفتن از طریق مقایسه آماری با مجموعه بزرگی از مثالها از ژانراهای مختلف موسیقی آموختهشده، و بر أساس نمونهگیری تصادفی مدل از آموختههای قبلی تولید میشود. هیچ شبیه سازی عمدی در کار نیست.
تکنیکهای آواز فراانسانی و خوانندههای سوپرمن: رویکرد آماری و بدون فهم مشخصات فیزیولوژیک و طبیعی صدای انسان برای آواز خوانی تبعات دیگری هم دارد. بطور مثال گاهی قطعات لگاتوی پایدار، مانند سیلاب آخر کلمه «نیستی»، بیشتر از۱۵ثانیه توسط مدل کشیده میشدند، جایی که برای خوانندگان اوپرا و در میان یک عبارت بلند نمیتوانست بیشتر از حداکثر ۸ ثانیه طول بکشد؛ گاهی هم مدلها در یک ویبراتوی بیامان برای خواندن یک سیلاب واحد از یک کلمه چند سیلابی گیر میکردند. این آوازهای کشدار و ویبراتوهای بدون زوال گاهی خوانش بدیع و فوقالعاده ولی مشخصا مصنوعی و غیر طبیعی تولید میکند. خوانندگان نخبه اپرا میتوانند بین ۱۵-۲۰ ثانیه یک ویبراتو با شدت متوسط را حفظ کنند؛ ولی بیشتر عبارات در ۴ تا ۸ ثانیه اجرا میشوند. اجراهای اوپرای طبیعی همیشه با بالا و پایین رفتنهای عمدی، مکثهای بین ۵-۱۵ میلیثانیه و انحرافات جزئی در زیر و بم صدا هستند، که مشخصه طبیعی فیزیولوژی خواننده و استفاده مناسب از تواناییهای جسمانی خواننده برای حفظ قوام صدا و استمرار خوانش همراه با با نفس گرفتنهای مکرر و کنترل انرژی برای خوانش به مدتهای طولانی است. اما هوش مصنوعی که بصورت آماری یادگرفته دستوراالعمل «لگاتو» با صدای پایدار و کشیده همراه است؛ مداوم و پشت سر هم لگاتوهای ۱۰-۲۰ ثانیهای بدون زوال و ویبراتوهای بیآمان را ردیف میکنند بدون اینکه بدانند کجا و چطور باید کوتاه بیایند و کجا باید فرصتی برای نفس گرفتن خواننده تعبیه شود؟ این سیستمها که صدا را فریم به فریم تولید میکنند، مدل مناسب و معیاری برای در نظر گرفتن ظرفیت نفس و کنترل شدت و مدت تولید صداهای طبیعی ندارند. این نوع خوانش اوپرایی، گاهی نوآورانه و به ندرت گوشنوازست و گرچه از نظر آماری محتمل است، اغلب با هیچ اجرای انسانی مطابقت ندارند و از نظر فیزیکی و فیزیولوژیکی غیرممکن هستند.
همگرایی صدای خواننده و سازها: گاهی، در پایان یک فراز، تفکیک صدای رو به افول خواننده از شروع صدای ساز، بخصوص ساکسفون، غیر ممکن میشود. فرکانس صدای خواننده با ساز آنقدر نزدیکند که شنونده نمیتواند تعیین کند کجا صدای خواننده محو میشود و ساکسوفون وارد میشود، انگار صدای خواننده به آرامی در تک نوازی ساکسفون حل شده، بدون مرز قابل تشخیصی که این دو را از هم جدا کند غیر قابل تفکیک از ساکسفون میشود. همچون پدیدهای با ویولنسل رخ نمیدهد. گرچه این پدیده گاها منجر به ابداعات خوشآیندی در خوانش آواز میشود، بطور طبیعی غیر قابل تکرار است و ذات مصنوعی صدای خواننده و سازها را، هر چقدر هم با کیفیت بالا تولید شده باشند لو میدهد.
این پدیده البته دلیل فنی سادهای دارد. حنجره انسان مانند یک جعبه صوتی است که با ساکسفون و سایر سازهای بادی ویژگیهای فیزیکی مشابهی در استفاده از حرکت ستون هوا در یک فضای کنترل شده برای تولید صدا دارد. این تشابه کیفی بخصوص در صداهای ــَـ ــِـ و ــُـ با ساکسفون دیده میشود. به همین دلیل در موسیقی راک، پاپ و جاز طبیعی هم اگر دقت کنید، استفاده از ساکسفون به عنوان ساز مکمل برای ادامه یا پاسخ دادن به فراز خوانندهها بسیار رایج است و ملودی و آواز به دلیل همین شباهت کیفی بین صدای خواننده و ساکسفون بصورت گوش نوازی بین این دو دست به دست میشود. این تشابه کیفی صدا ولی در ویولنسل که از اصطکاک آرشه روی سیمها استفاده میکند دیده نمیشود.
مدلهای هوش مصنوعی در زمان یادگیری، نمونههای صوتی ازأنواع فرکانسها و کیفیتهای مختلف را، فارغ از اینکه مبدا آنها کدام ساز و کدام خواننده است به بردارهای ریاضی تبدیل میکنند که در یک فضای فشرده چند بعدی توزیع آماری و ذخیره میشوند. در این فضای چند بعدی توزیع آماری، صداهای مشابه هم، فارغ از منشا آنها در کنار هم ذخیره میشوند، به این ترتیب که هر چه دو صدا متفاوتتر، نمونهها دور تر ازهم، و هرچه شبیهتر، نمونهها نزدیکتر به هم ذخیره میشوند. یعنی توزیع بردارهای آماری، بر اساس شباهت صداهاست نه بر اساس سنخیت و نوع و جنس صدا. در زمان اجرا، مدل هوش مصنوعی از یک نت به نت دیگر به این توزیع آماری مراجعه میکند تا صداهای بعدی را پیدا کند که احتمال بیشتری برای تولید بهترین نتیجه را دارند. به این ترتیب در زمان انتقال صدا از خواننده به ساکسوفون، مدل هوشمند از بین نزدیکترین صداها به آخرین نت آواز نمونه برداری میکند، که بصورت غیر قابل تفکیک در این فضای چند بعدی کنارهم چیده شدهاند. نتیجه صدایی است که نه تنها شنونده، بلکه حتی خود هوش مصنوعی هم قادر به تفکیک مبدا انسانی و مصنوعی آن نیست چون از نواحی بسیار نزدیک به هم در این میدان توزیع، و به صورت تصادفی غربال شدهاند. گرچه این تفکیک برای هوش مصنوعی از نظر ریاضی ممکن است، ولی هزینه و بار محاسباتی این نوع غربالگری بسیار بالاست و مدلها معمولا کم هزینهترین مسیر را برای پیدا کردن جواب طی میکنند. طبیعی است که نزدیکی صداها در یک فضای آماری پیچیده برای مدلهایی که برای تنبلی بهینه شدهاند کمترین مقاومت را برای استفاده از صداهای مشابه به دنبال خواهد داشت.
انسجام ملودیک و حافظه ساختاری
بر خلاف انتظار، مدلهای هوش مصنوعی موجود بیشترین مشکل را با حفظ انسجام ملودیک موسیقی درطول یک قطعه نسبتا بلند (بین ۵ تا ۸ دقیقه) داشتند تا با حفظ یکپارچگی خوانش اوپراتیک شعرهای فارسی. علیرغم دستورات دقیق، یکپارچه سازی ملودی با خوانش اوپراتیک برای ایجاد ساختارهای قوسی (thematic arc) متوازن مشکل بزرگی برای سیستمهای هوشمند موجود ایجاد میکند. مدلهای هوشمند به ندرت قادر به حفظ یک دستی ملودی در قطعات بلند اوپرا هستند. ملودی مرکزی موسیقی، ضرب آهنگ (تمپو)، سازبندی و حتی گاهی ژانرای موسیقی بهطور تصادفی بین بندهای مختلف آواز تغییر میکند بدون اینکه معنی شعر و یا خوانش آوازی توضیح درستی برای این تغییر بدهد. مدل هوشمند از این بند به آن بند یا بین ترجیع بندهای شعر از یک کلید به کلید دیگر منتقل میشد، و یا برای ایجاد پل موسیقی میان بندهای مختلف دست به ابداع ملودیهای جدید میزد به جای اینکه سیاقی را که از ابتدای قطعه شروع کرده با استفاده از ملودی مرکزی قطعه به صورت یک پارچه ادامه بدهد. بطور مثال ملودی مرکزی قطعه با پیانو و ویولن سل شروع و در پایان بند اول با ساکسفون و سازهای زهی پشت سرش دست به هم داده و به بند دوم میرسند، ولی ناگهان موسیقی پشت سر با ورود درام و تغییر ضرب آهنگ از ۸۰ به ۱۰۰ به موسیقی راک تبدیل میشود که تا انتهای ترجیع بند بعدی ادامه پیدا میکند ولی به بند سوم آواز که میرسیم همه سازها همزمان خاموش میشوند و نه از تم مرکزی خبری است و نه از راک ناخواسته، و خواننده به تنهایی یک بند کامل را در سکوتی فریاد میزند که ناگهان با ورود سینتی سایزر و پرکاشن الکترونیک عملا تبدیل به موسیقی راک الکترونیک شده است. کنترل توازن، یکپارچکی، و یکدستی ملودی با خوانش اوپرایی و با معنی شعر و همراهی آن با چشم انداز هنری و خط سیر مورد نظر شما در طول قطعه و بین قطعات متعدد آلبوم بزرگترین چالش این آلبوم اوپرایی بود. این مشکل با افزایش طول مدت قطعه، و پیچیدهتر شدن ساختار قوسی آهنگها و خوانش اوپرایی مورد نظر بزرگتر میشد و متاسفانه استفاده از دستورات تعبیه شده در جای جای قطعه هم ابزار مناسبی برای کنترل این رفتار مدل هوشمند نیست چون دستورات بیشتر و جزییات فنی بیش از اندازه معمولا به سردرگمی و توهم و یا بیاعتنایی کامل مدل به همه دستورات شما منجر میشود و نتیجه در هر حال یک موسیقی گوش خراش، کلیشهای، بیربط و یا ناخواسته است.
علت فنی این پدیده ممکن است ناشی از محدودیتهای ساختاری و ایرادات مهندسی مدلهوشمند باشد: حفظ یکپارچگی ملودی از ابتدا تا انتهای یک قطعه بلند و یک دست کردن آن با خوانش و روایت آن (thematic arc) نیازمند سیستم حافظهای است که مشخصات مرکز هارمونیک قطعه، کلید و سازبندی را همانطور که در بندهای قبلی اجرا شده اند به خاطر بسپارد و هر چه جلوتر میرود، بجای تکرار یا نو آوری، بسته به وضعیت دیگر اجزا و دستورات موضعی بتواند در همان محدوده معین دست به تولید موسیقی جدید بزند. قابلیت یادآوری آنچه گذشت برای ساخت اوپرای کلاسیک که در آن قطعات آغازین نقش بزرگی در تعیین میانه و پایان داستان بازی میکنند حیاتی است. گرچه اغلب مدلهای هوشمند فعلی بصورت ساختاری دارای این قابلیت هستند، به سختی میتوان مدلی پیدا کرد که تحمل پیچیدگی بیشتر از یک آهنگ راک یا پاپ معمولی را داشته باشد که برای ۳-۵ دقیقه و با فرکانس صدای خواننده در طیف نزدیک به متوسط تنظیم شده است. هر چه آواز خواننده و طیف صدای مورد نظر فراز و فرود بیشتری داشته باشد، تعداد سازها و پیچیدگی ملودی بیشتر بشود، و یا پیچیدگی شعر نیاز به تغییرات مستمر در طول ترانه داشته باشد حفظ توازن و یکپارچگی موسیقی مشکلتر و مدلهای هوشمند سریعتر و بیشتر از هم میپاشند. نگاهی دقیق به موسیقیهای تولید شده توسط مدلهای هوشمند فعلی در بازار موسقی فارسی نشان میدهد که اغلب آنها درگیر این مشکل خاص هستند. موسیقی که به ناچار در یک طیف بسیار محدود ملودیک و آوایی با تکرار کلیشههای موجود به جای نوآوری به صورت انبوه تولید شده اند.
تکامل مدلهای هوشمند موسیقی: کیفیت صدا در برابر خلاقیت موسیقی؟
در طول مدت نسبتا کوتاهی که مدلهای هوشمند برای استفاده عمومی وارد بازار شدهاند تحول چشمگیری در توانایی و کیفیت این مدلها قابل مشاهده است. مطمینا این تحول و تغییرات همچنان در آینده نزدیک ادامه خواهد داشت ولی مشاهدات من در یکسال گذشته حاکی از یک بده بستان جالب بین خلاقیت و گستره تواناییهای مدلهای هوشمند برای تولید موسیقی و کیفیت صدا و موسیقی خلق شده است. این تحولات و رویکرد تولید کنندههای مدلهای هوشمند موسیقی در نتیجه به دست آمده و تولید آلبوم ابر مهاجر نقش داشته اند و ادامه توانایی هنرمندان برای خلق آثار هنری بدیع با استفاده از این مدلها به سیر تکاملی این تکنولوژی وابسته خواهد بود:
اوایل ۲۰۲۵: اولین نسل مدلهای هوشمند موسیقی با خلاقیت بالا برای ایجاد موسیقی در گستره وسیعی از ژانراها و استایلهای مختلف موسیقی در أواخر ۲۰۲۴ و اوایل ۲۰۲۵ وارد بازار شد. مدلهای نسل اول توانایی مناسبی برای خواندن به زبانهای مختلف نداشتند و فارسی را به سختی و با دقت کم در حروف خاص می فهمیدند. ملودیهای بدیع و خارج از چارچوبهای مشخص موسیقی، نوآوری در خواندن آواز در خارج از قالبهای استاندارد مشخصه این نسل از مدلهاست. دامنه وسیعی ازآهنگهای تجربی و آوانگارد تولیدشده توسط مدلهای اولیه وجود دارند که نشان دهنده قدرت خلاقیت هوش مصنوعی در ابداع شکلی بدیع از موسیقی و آواز هستند. مشکل نسل اول مدلهای هوشمند اما با اجراهای ضعیف از نظر کیفیت مصنوعی و ناخوشایند صدای سازها، صداهای غیرطبیعی و ناخواسته و موسیقی کم عمق فاقد پیچیدگی های تکنیکی لازم برای سازبندی ترکیبی و ارکستراسیون کامل برای کارهای هنری جدی بود. اغلب قطعات با یک یا دو ساز و با مدت کوتاه (حد اکثر ۴ دقیقه) و با کیفیت ساز و صدای مشخصاّ مصنوعی تولید میشد. گرچه طیف بسیار گستردهای از خلاقیت و ابداع در همان عمق پایین کیفی قابل مشاهده بود. نطفه اوپراهای «تو بمان» و «مرا دریاب» با این نسل از مدلها در ژانرای راک الکترونیک بسته شده است. مدلهای نسل اول توانایی تولید اوپرای کلاسیک را نداشتند.
میانه ۲۰۲۵: نیمه میانی ۲۰۲۵ با به بازار آمدن مدلهای مولد پیشرفتهای همراه است که دامنه خلاقیت مدلهای نسل اول را تا حد زیادی حفظ کرده و به بهبود کیفیت و عمق موسیقی تولید شده پرداختهاند. در این مدلهای نسل میانی آوازهای توهمآمیز ناشی از عدم توانایی مدل در بازسازی صداهای نزدیک به واقعیت کاهش یافت، صدای سازها واقعگرایانه تر و ترکیب و ارکستراسیون سازهای متعدد با هم (ویولن سل، پیانو، ساکسفون و طبل) ممکن شدند، پاسخگویی مدلها به دستورات تعبیه شده بین خطوط شعر افزایش قابل توجهی یافت. مدلهای این نسل توانایی درک روایت شعر و همگرایی موسیقی با روایت شعر در طول یک قطعه بلند ۵ تا ۸ دقیقهای را با استفاده از دستورات خط به خط پیدا کردند. آلبوم ابر مهاجر با استفاده از قابلیتهای فنی این نسل از مدلهای هوشمند بوجود آمده است: امکان پردازش موسیقی ارکسترال، اجرای منسجم و یکپارچه اپرایی با دامنه دینامیکی کامل، با حفظ صداهای باس رو به جلو، حفظ ملودی مرکزی ویولنسل محور که با ترکیب ساکسفون و پیانو گسترش مییابد، قوسهای دراماتیک پیچیده مبتنی بر روایت شعر و خوانش کم نقص و با کیفیت قابل قبول فارسی اوپراتیک، حفظ تعهد به قواعد بل کانتو با کمی زیاده روی در لگاتو و ویبراتوهای مستر. همگی این تواناییها برای اجرای موفق البوم ابر مهاجر ضروری و دست آورد نسل میانی مدلهای هوشمند است.
نسل جدید أواخر ۲۰۲۵: جدیدترین نسل از مدلهای هوش مصنوعی با کیفیت صدای عالی مشخص میشوند. سازهایی با صدایی بسیار واضح و واقعگرایانه، کاهش توهم و اشتباه در خوانش به چندین زبان زنده دنیا، صداهای خواننده بسیار شفاف و طبیعی. اما به طرز عجیبی مدلهای نسل جدید گستره خلاقیت و طیف توانمندیهایشان را بطور کاملا از دست داده اند. تولید موسیقی خلاق بهطور سیستماتیک در این مدلها فروپاشیده و توانایی هنری مدلها قربانی کیفیت صدا شده است. دامنه دینامیکی صدای خواننده ها از ppp – fff به p–f فشرده شده است یعنی صدای خوانندهها در طیفی بین حرف زدن طبیعی و خواندن ترانه جلوی میکروفون قابل تغییر است؛امکان خواندن با صدای نرم مانند پچ پچه (ppp) و یا رساندن صدا به اوج (fff) از دست رفته است. قدرت ویبراتو مدلها کاهش یافته و جزییات دستورات برای بالا و پایین بردن شدت صدای خواننده بدلیل عدم توانایی مدل در اجرا عملا نادیده گرفته می شود. بطور مثال وقتی برای تغییر دامنه صدای باس-باریتون در طیف گسترده دستور داده میشود (که یکی از ارکان اوپرا است) اغلب مدلهای نسل جدید بدلیل عدم توانایی در تغییر دامنه صدا اقدام به ایجاد دوئت باصدای زن برای بخش نرم و صدای مردانه تنور برای بخش بلند میکنند بخاطر اینکه مدل از تولید یک صدای واحد که این دامنه را بطور کامل طی کند ناتوان شده است. برای مثال دستور
[Bass-Bariton, soft legato, pp to ff crescendo]
تو نییستیی
بجای اینکه توسط صدای مردانه در طیف باس-باریتون با خوانش نرم « تو» شروع شده و با یک لگاتوی پایدار در چهار تا پنج ثانیه با خوانش بلند و کشیده بخش پایانی «نیستی» ختم بشود، دوبار خوانده میشود. یکبار با صدای زنانه برای بخش ppp و یکبار هم با صدای تنور مردانه ff، بدون لگاتو پایدار، انگار یک ترانه پاپ خوانده میشود. به این ترتیب امکان اجرای اپرایی و موسیقی کلاسیک تقریباً بهطور کامل در مدلهای مدرن نسل جدید از دست رفته.
جستجویی کوتاه در شبکههای اجتماعی مرتبط مشاهدات من را تأیید میکند: همه متفق القولند که مدلهای جدیدتر «بیمزه، مثل روخوانی نت و شعر، خستهکننده و بیروح» میکنند. منتقدان اشاره میکنند مدلهای نسل جدید «همه چیز را به حد وسط تقلیل میدهند. هر نوع دستوری که حاوی نو آوری، یا ایجاد موسیقی در حاشیه تجربههای روزمره و عمومی باشد نادیده گرفته میشود». مدلهای نسل جدید توانایی زیادی برای تولید صدای طبیعی پیدا کردهاند ولی دیگر قدرت تولید موسیقی جدید را از دست داده اند و ملودیهایی کلیشهای، معمولی، عامهپسند ولی بیروح و بدون نوآوری ولی با کیفیت بسیار عالی تولید میکنند.
این پدیده، یعنی تولید محتوای با کیفیت صوتی بسیار خوب ولی در محدودهای بسیار کوچک، آنهم در نزدیکی متوسط آماری، فروپاشی مُدال (modal collapse) نام دارد. این پدیده زمانی رخ میدهد که از مکانیسمهای یادگیری تقویتی (Reinforcement Learning) برای تربیت هوش مصنوعی استفاده میشود به طوری که مدل برای تولید محتوای با کیفیت خوب پاداش قابل توجهی میگیرد و خودبخود و رفتهرفته با در نظر گرفتن نوع و مقدار پاداشی که از تولید صداهای مختلف با کیفیتهای متفاوت میگیرند به تکنیکها و روشهای خاصی همگرایی پیدا میکنند که بیشترین پاداش را برای مدل به همراه خواهد داشت. این روش تربیتی میتواند در درازمدت مدلهای هوشمند بسیار پیچیده را بهینه کند. مشکل اینجاست که در تربیت مدلهای هوشمند فعلی پاداشی برای خلاقیت و نو آوری در حیطه های دور از علایق عامه پسند کاربران عادی و غیر حرفهای در نظر گرفته نمیشود. در واقع تولید محتوای نوآ ورانه مرتبا با پنالتی و بازخورد منفی روبرو میشود، چون مورد پسند کاربران روزانه که اغلب از روی کنجکاوی و یا برای نیازهای مقطعی و زودگذر احتیاج به یک موسیقی بیضرر و معمولی دارند قرار نمیگیرند. اغلب موارد شرکتهای تولید کننده مدلهای هوشمند، برای کاهش هزینه، سرعت عمل و رقابت، از یک مدل هوشمند دیگر برای قضاوت (دادن پاداش و یا پنالتی) استفاده میکنند. اینجاست که فروپاشی مُدال با سرعت و شدت زیاد با از دست دادن تنوع یا خلاقیت در تمام خروجیها (محدوه صدای خوانندهها، طیف و نوع سازها، ژانراهای موسیقی، ترکیب و ارکستراسیون سازها) روبرو میشود، و تمام تواناییهای مدل همزمان به طرف مرکز توزیع آماری مورد نظر قاضی مصنوعی همگرا میشوند، چون نه تنها هیچ پاداشی برای تنوع و نوآوری و یا تولید محتوا با فاصله از مرکز آماری وجود ندارد هر محتوای تصادفی هم که در خارج از محدوده مرکزی مورد نظر قاضی قرار داشته باشد تنبیه میشود و مدلها به سرعت برای استفاده روزانه کاربر عمومی بهینه میشوند: سازندگان موسیقی پاپ انگلیسی که نتایج سریع برای مصارف مقطعی میخواهند. فروپاشی مدال دامنه دینامیک صدای خواننده، پیچیدگی ساختاری موسیقی، تنوع بافت (تیمبر) صدا (هم برای خواننده و هم برای سازها) و پیچیدگی موضوعی موسیقی را که موردنیاز موسیقی کلاسیک و اوپراست بطور سیستماتیک از مجموعه تواناییهای مدلهای هوشمند نسل جدید حذف کرده است! به این ترتیب تولید محتوای اوپرایی فارسی در محدودهای قرار گرفته از این بده بستان بین کیفیت صدا و کیفیت موسیقی، بیشترین آسیب را میبیند: ژانرایی دور از میانه آماری موسیقی پاپ، به زبانی غیر معمول، با قصد نوع آوری هنری، و غیر تجاری.
پارسا میرحاجی
