توانایی شنیداری رایانه

استماع(شنیداری) رایانه (CA) یا گوش دادن رایانه، یکی از زمینه های مطالعه الگوریتم ها به صورت کلی و سیستم هایی برای درک صدا توسط ماشین است. ^[۱] ^[۲] از آنجا که مفهوم "شنیدن" برای ماشین بسیار گسترده و تا حدودی مبهم است ، استماع کامپیوتر سعی می‌کند چندین قوانین و تعاریف را که به مسائل مربوط است یا کاربرد مستقیم و واقعی‌ای در مساله دارد را مورد توجه نگه دارد. مهندس پاریس اسماراگدیس ، که با Technology Review مصاحبه کرده بود، در مورد این نوع از سیستم ها صحبت می‌کند - "نرم‌افزاری که با استفاده از صدا می تواند محل افرادی را که در اتاق حرکت می کنند را تشخیص دهد ، ماشین آلات را برای خرابی های قریب‌الوقوع کنترل کند ، یا دوربین های ترافیکی را برای ثبت تصادفات فعال کند." ^[۳]

با الهام از مدل های شنیداری انسان ،استماع کامپیوتر به سوالات مربوط به بازنمایی ، انتقال ، گروه‌بندی ، استفاده از دانش موسیقیایی و معنای کلی صدا برای اجرا و انجام هوشمند کارها روی سیگنال های صوتی و موسیقی توسط رایانه می پردازد. از نظر فنی این امر ترکیبی از روشهایی که در موضوعاتی نظیر پردازش سیگنال ، مدل سازی شنیداری ، درک و شناخت موسیقی ، شناخت الگو و یادگیری ماشین و همچنین روشهای سنتی تر هوش مصنوعی وجود دارد برای نمایش دانش موسیقیایی نیاز دارد. ^[۴] ^[۵]

برنامه های کاربردی

همانند تقابل بینایی رایانه ای و پردازش تصویر ، استماع رایانه‌ای نیز در مقابل مهندسی صداها بیشتر به درک و دریافتن صدا می پردازد تا پردازش آن. همچنین از آنجایی که این مساله با سیگنالهای صوتی کلی، مانند صداهای طبیعی و ضبط های موسیقی سروکار دارد ، بنابراین با مساله درک گفتار توسط دستگاه نیز تفاوت‌هایی اساسی دارد.

بکاربردهای استماع رایانه‌ای بسیار متنوع و گسترده است، و شامل جستجو برای اصوات ، تشخیص ژانر ، نظارت صوتی ، رونویسی موسیقی ، ضبط امتیاز ، بافت صوتی ، بداهه نواختن موسیقی ، احساسات در صداها و غیره می‌شود.

موضوعات مرتبط

استماع رایانه با رشته های زیر همپوشانی دارد:

بازیابی اطلاعات موسیقی : روش هایی برای جستجو و تجزیه و تحلیل شباهت بین سیگنال های موسیقی.
تجزیه و تحلیل صحنه شنیداری: درک و توصیف منابع صوتی و رویدادها.
گوش دادن به ماشین: روش هایی برای استخراج پارامترهای معنی دار شنوایی از سیگنال های صوتی.
موسیقی شناسی محاسباتی و تئوری موسیقی ریاضی: استفاده از الگوریتم هایی که از دانش موسیقی برای تجزیه و تحلیل داده های موسیقی استفاده می کنند.
موسیقی رایانه ای : استفاده از رایانه در برنامه های موسیقی خلاقانه.
نوازندگی ماشینی: سیستم های موسیقی تعاملی شنوایی محور.

موضوعات مورد مطالعه

از آنجا که سیگنال‌های صوتی توسط سیستم گوش-مغز انسان تفسیر می شوند ، بنابراین مکانیسم پیچیده ادراکی باید به نوعی در نرم‌افزار تحت عنوان "گوش دادن به ماشین" شبیه سازی شود. به عبارت دیگر ، برای عملکرد معادل و هم‌سطح با انسان ، رایانه باید محتوای صوتی را همانطور که انسان می‌شنود، بشنود و درک کند. تجزیه و تحلیل صوتی به طور دقیق شامل ترکیب کردن چندین موضوع است: مهندسی برق (تجزیه و تحلیل طیف صوتی ، فیلتر کردن و تبدیل صدا). هوش‌مصنوعی (یادگیری ماشین و دسته‌بندی صدا)؛ ^[۶] روان آکوستیک (درک کردن صدا) ؛ علوم شناختی (علوم اعصاب و هوش‌مصنوعی) ؛ ^[۷] آکوستیک (فیزیک تولید صدا) ؛ و موسیقی (هارمونی ، ریتم ، و تنبور). علاوه بر این، تغییرات صوتی مانند تغییر گام، طولانی‌تر شدن از لحاظ زمانی و فیلتر کردن صوتی اشیا، نیز باید از نظر موسیقیایی و ادراک معنی‌دار باشند. برای نتایج بهتر، این تحولات نیاز به درک ادراکی‌ای از مدلهای طیفی ، استخراج ویژگیهای سطح بالا و عمیق و تحلیل / سنتز صدا دارد. درنهایت، برای ساختاردهی و کدگذاری محتوای یک فایل صوتی (صدا و فراداده) می‌توان از روش‌های فشرده سازی کارآمد بهره ببرد ، که اطلاعات نامفهوم و غیر قابل شنیدن در صدا را دور می‌اندازد. ^[۸] مدلهای محاسباتی موسیقی و درک صدا و شناخت آن می توانند منجر به نمایش معنادارتر ، تغییرات دیجیتالی بصری و تولید صدا و موسیقی در رابط های موسیقی انسان-ماشین شوند.

مطالعه توانایی شنیداری رایانه (CA) می تواند تقریباً به زیرمسائل زیر تقسیم شود:

نمایش: سیگنال و نمادین. این جنبه با نمایش های فرکانس زمانی ، هم از نظر یادداشت ها و هم از طریق مدل های طیفی ، از جمله پخش الگو و بافت صوتی سروکار دارد.
استخراج ویژگی ها : توصیف کننده های صدا ، تقسیم بندی ، شروع ، تشخیص گام و پاکت ، کروم و نمایش های شنیداری.
ساختارهای دانش موسیقی: تجزیه و تحلیل لحن ، ریتم و هارمونی ها .
شباهت صدا: روش هایی برای مقایسه بین اصوات ، شناسایی صدا ، تشخیص تازگی ، تقسیم بندی و خوشه بندی.
مدل سازی توالی: مطابقت و هم ترازی سیگنال ها و توالی های یادداشت.
تفکیک منبع: روشهای گروه بندی اصوات همزمان ، مانند روشهای تشخیص گام چندگانه و خوشه بندی فرکانس زمان.
شناخت شنیداری: مدل سازی احساسات ، پیش بینی و آشنایی ، تعجب شنیداری و تحلیل ساختار موسیقی.
تجزیه و تحلیل چند حالت: یافتن مکاتبات بین سیگنالهای متنی ، تصویری و صوتی.

مسائل مربوط به نحوه بیان

توانایی شنیداری رایانه با سیگنال های صوتی‌ای سروکار دارد که می توانند در انواع مختلفی از جمله کدینگ به صورت مستقیم صدای دیجیتال در دو یا چند کانال تا دستورالعمل های سنتزی به صورت نمادین بیان شوند. سیگنال های صوتی معمولاً به صورت ضبط آنالوگ یا دیجیتال نشان داده می شوند . ضبط های دیجیتالی نمونه هایی از شکل موج صوتی یا پارامترهای الگوریتم های فشرده سازی صدا هستند . یکی از ویژگی های منحصر به فرد سیگنال‌های موسیقیایی آن است که آنها اغلب انواع مختلفی از نمایش را باهم ترکیب می کنند ، برای مثال اعداد گرافیکی و توالی ای از عملیات ها که به عنوان فایل‌های MIDI رمزگذاری می شوند.

از آنجا که سیگنال های صوتی معمولاً شامل چندین منبع صوتی هستند، بنابراین برخلاف سیگنال های گفتاری که می توانند با توجه به مدل های خاص (مانند مدل فیلتر-منبع) به طور بهینه‌ای بیان شوند ، بیان پارامتری برای صدای کلی‌ای دشوار است. نمایش‌های صداها به صورت پارامتری معمولاً از بانک‌های فیلتری یا مدل‌های سینوسی برای ثبت پارامترهای چندین صدا استفاده می کنند ، گاهی اوقات به منظور گرفتن ساختار داخلی سیگنال ، اندازه نمایش را افزایش می دهند. انواع دیگری از داده‌ها که به استماع رایانه‌ای مرتبط هستند، توصیفی متنی از محتواهای صوتی ، مانند نوشتار، بازبینی و اطلاعات بصری در مورد ضبط های دیداری و شنیداری است.

ویژگی‌ها

تتوضیح محتوای سیگنالهای صوتی کلی معمولاً به استخراج ویژگیهایی نیاز دارد که جنبه های خاصی از سیگنال صوتی را ثبت می‌کنند. به صورت کلی ، می توان ویژگی‌ها را به سیگنال یا توصیفات ریاضی‌ای مانند انرژی، توصیف شکل طیفی و غیره ، توصیف آماری مانند تغییرات یا تشخیص نوآوری، بیان‌های ویژه‌ای که با طبیعت سیگنال های موسیقی یا سیستم شنوایی سازگارتر هستند تقسیم کرد ، مانند رشد لگاریتمی حساسیت ( پهنای باند ) در فرکانس یا عدم تحقق اکتاو (کروم).

به این دلیل که مدلهای پارامتریک در صداها معمولاً به پارامترهای بسیاری نیاز دارند ، از این ویژگیها برای خلاصه کردن ویژگی‌های چندین پارامتر در یک نمایش فشرده یا برجسته تر استفاده می شود.

دانش موسیقی

یافتن ساختارهای موسیقی مشخص با استفاده از دانش موسیقیایی و همچنین با روشهای یادگیری ماشین نظارتی و بدون نظارت امکان پذیر است. مثال‌هایی از این موارد عبارتند از: تشخیص تناژ(تونالیته)بر اساس توزیع فرکانس‌ها که با الگوهای رخ دادن نت‌ها در مقیاس های موسیقیایی مطابقت دارند، توزیع زمان شروع شدن نت برای تشخیص ساختار ضرب‌آهنگ ، توزیع انرژی در فرکانس های مختلف برای تشخیص آکورد موسیقی و غیره.

شباهت صدا و مدل سازی توالی

مقایسه کردن اصوات را می توان با مقایسه ویژگی‌ها با یا بدون توجه به زمان انجام داد. در بعضی موارد مشابهت کلی را می توان با مقادیر نزدیک ویژگیها بین دو صدا ارزیابی کرد. در موارد دیگر که ساختار زمانی مهم است، لازم است که روش های تاب دهی زمانی پویا برای "اصلاح" کردن تفاوت‌های مقیاس های زمانی مختلف رخدادهای صوتی استفاده شوند. یافتن تکرارها و زیردنباله های مشابه رخدادهای صوتی برای کارهایی مانند سنتز بافت و بداهه پردازی ماشین مهم است.

تفکیک منبع

از آنجایی که یکی از ویژگیهای پایه‌ای صداها این است که شامل چندین منبع همزمان صدا مانند چندین ساز موسیقی، صدای افراد در حال مکالمه، صدای ماشین‌آلات یا صدای حیوانات می باشد، توانایی شناسایی و جدا کردن منابع جداگانه بسیار مورد اهمیت است. متأسفانه، هیچ روشی وجود ندارد که بتواند این مشکل را به صورت قوی در برابر انواع خطاها حل کند. روشهای موجود برای جداسازی منبع گاهی به همبستگی و ارتباط بین کانالهای مختلف صوتی در ضبط‌های چند کاناله متکی هستند. توانایی تفکیک منابع سیگنال های استریو به تکنیک های متفاوت‌تری نسبت به آنچه که معمولاً در ارتباطاتی که چندین حسگر در دسترس است،نیاز دارد. سایر روشهای جداسازی منبع به یاد دادن یا خوشه‌بندی ویژگی ها در ضبط تکی، مانند دنبال کردن هارمونیکی مرتبط با هماهنگی برای تشخیص گام چندگانه متکی هستند. برخی از روش‌ها ، قبل از تشخیص واضح و مستقیم، با پیدا کردن کمترین میزان نمایش داده های پیچیده به بیان کردن ساختار میپردازند بدون آنکه از ساختار اطلاعاتی داشته باشند(مانند تشخیص اشیا در تصاویر بدون نسبت دادن برچسب معنی دار به آن‌ها) ، به عنوان مثال توصیف صحنه های صوتی ایجاد شده توسط چند الگوی تن و مسیر آنها (صدای چند صدایی) و خطوط صوتی رسم شده توسط یک لحن (آکورد). ^[۹]

شناخت شنیداری

گوش دادن به موسیقی و صدای عمومی معمولاً به عنوان یک کار به صورت مستقیم به حساب نمی‌آید. افراد به دلایل مختلفی که زیاد شناخته نشده است از موسیقی لذت می برند، اما معمولاً به تأثیر عاطفی موسیقی به دلیل ایجاد انتظارات و دریافتن یا نقض آنها اشاره می شود. حیوانات نشانه هایی از خطر را در صداها بروز می دهند، که می تواند نشانه ای خاص یا کلی از یک تغییر غافلگیر کننده و غیر منتظره باشد. بعموما، این مساله وضعیتی را به وجود می‌آورد که توانایی شنیداری رایانه نمی‌تواند فقط به تشخیص ویژگی های خاص یا ویژگی های صدا اعتماد کند و مجبور است روش های عامه‌ی سازگاری با تغییر محیط شنوایی و نظارت بر ساختار آن را ارائه دهد. این روش‌ها شامل تجزیه و تحلیل ساختارهای بزرگتر تکرار و ساختارهای خود-متشابهی در صدا برای تشخیص نوآوری و همچنین توانایی پیش بینی پویایی ویژگی های محلی است.

تجزیه و تحلیل چند حالت

در میان داده های موجود برای توصیف موسیقی، بازنمایی‌های متنی‌ای وجود دارد، مانند یادداشت های غیر رسمی، بررسی‌ها و انتقاداتی که محتواها و مفهوم‌های صوتی را به صورت کلمات توصیف می کنند. در موارد دیگر، عکس‌العمل‌های انسانی مانند قضاوت های عاطفی یا اندازه گیری های روانی-فیزیولوژیکی ممکن است بینشی در مورد محتویات و ساختار صوتی ایجاد کند. توانایی شنیدن رایانه سعی می کند رابطه ای بین این نمایش های مختلف پیدا کند تا درک بیشتری از محتوای صوتی ارائه دهد

جستارهای وابسته

محلی سازی صدای سه بعدی
پردازش سیگنال صوتی
لیستی از فناوری های نوظهور
آزمایشگاه هوش پزشکی و مهندسی زبان
موسیقی و هوش مصنوعی
تشخیص صدا

پیوند به بیرون

منابع

↑ "Machine Audition: Principles, Algorithms and Systems".
↑ "Machine Audition: Principles, Algorithms and Systems" (PDF).
↑ Paris Smaragdis taught computers how to play more life-like music
↑ {{Tanguiane (Tangian), Andranick (1993). Artificial Perception and Music Recognition. Lecture Notes in Artificial Intelligence. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4.}} {{cite book}}: Empty citation (help)
↑ Tanguiane (Tanguiane), Andranick (1994). "A principle of correlativity of perception and its application to music recognition". Music Perception. 11 (4): 465–502. doi:10.2307/40285634.
↑ Kelly, Daniel; Caulfield, Brian (Feb 2015). "Pervasive Sound Sensing: A Weakly Supervised Training Approach". IEEE Transactions on Cybernetics. 46 (1): 123–135. doi:10.1109/TCYB.2015.2396291. PMID 25675471. {{cite journal}}: |hdl-access= requires |hdl= (help)
↑ Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer, and Xavier Serra. Computational models of music perception and cognition I: The perceptual and cognitive processing chain. Physics of Life Reviews, vol. 5, no. 3, pp. 151-168, 2008.
↑ Machine Listening Course Webpage at MIT
↑ Tanguiane (Tangian), Andranick (1995). "Towards axiomatization of music perception". Journal of New Music Research. 24 (3): 247–281. doi:10.1080/09298219508570685.

[1] "Machine Audition: Principles, Algorithms and Systems".

[2] "Machine Audition: Principles, Algorithms and Systems" (PDF).

[3] Paris Smaragdis taught computers how to play more life-like music

[Tanguiane1993-4] {{Tanguiane (Tangian), Andranick (1993). Artificial Perception and Music Recognition. Lecture Notes in Artificial Intelligence. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4.}} {{cite book}}: Empty citation (help)

[Tangian1994-5] Tanguiane (Tanguiane), Andranick (1994). "A principle of correlativity of perception and its application to music recognition". Music Perception. 11 (4): 465–502. doi:10.2307/40285634.

[6] Kelly, Daniel; Caulfield, Brian (Feb 2015). "Pervasive Sound Sensing: A Weakly Supervised Training Approach". IEEE Transactions on Cybernetics. 46 (1): 123–135. doi:10.1109/TCYB.2015.2396291. PMID 25675471. {{cite journal}}: |hdl-access= requires |hdl= (help)

[7] Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer, and Xavier Serra. Computational models of music perception and cognition I: The perceptual and cognitive processing chain. Physics of Life Reviews, vol. 5, no. 3, pp. 151-168, 2008.

[8] Machine Listening Course Webpage at MIT

[Tanguiane1995-9] Tanguiane (Tangian), Andranick (1995). "Towards axiomatization of music perception". Journal of New Music Research. 24 (3): 247–281. doi:10.1080/09298219508570685.

[۱]

[۲]

[۳]

[۴]

[۵]

[۶]

[۷]

[۸]

[۹]