توانایی شنیداری رایانه
استماع(شنیداری) رایانه (CA) یا گوش دادن رایانه، یکی از زمینه های مطالعه الگوریتم ها به صورت کلی و سیستم هایی برای درک صدا توسط ماشین است. [۱] [۲] از آنجا که مفهوم "شنیدن" برای ماشین بسیار گسترده و تا حدودی مبهم است ، استماع کامپیوتر سعی میکند چندین قوانین و تعاریف را که به مسائل مربوط است یا کاربرد مستقیم و واقعیای در مساله دارد را مورد توجه نگه دارد. مهندس پاریس اسماراگدیس ، که با Technology Review مصاحبه کرده بود، در مورد این نوع از سیستم ها صحبت میکند - "نرمافزاری که با استفاده از صدا می تواند محل افرادی را که در اتاق حرکت می کنند را تشخیص دهد ، ماشین آلات را برای خرابی های قریبالوقوع کنترل کند ، یا دوربین های ترافیکی را برای ثبت تصادفات فعال کند." [۳]
با الهام از مدل های شنیداری انسان ،استماع کامپیوتر به سوالات مربوط به بازنمایی ، انتقال ، گروهبندی ، استفاده از دانش موسیقیایی و معنای کلی صدا برای اجرا و انجام هوشمند کارها روی سیگنال های صوتی و موسیقی توسط رایانه می پردازد. از نظر فنی این امر ترکیبی از روشهایی که در موضوعاتی نظیر پردازش سیگنال ، مدل سازی شنیداری ، درک و شناخت موسیقی ، شناخت الگو و یادگیری ماشین و همچنین روشهای سنتی تر هوش مصنوعی وجود دارد برای نمایش دانش موسیقیایی نیاز دارد. [۴] [۵]
برنامه های کاربردی
[ویرایش]همانند تقابل بینایی رایانه ای و پردازش تصویر ، استماع رایانهای نیز در مقابل مهندسی صداها بیشتر به درک و دریافتن صدا می پردازد تا پردازش آن. همچنین از آنجایی که این مساله با سیگنالهای صوتی کلی، مانند صداهای طبیعی و ضبط های موسیقی سروکار دارد ، بنابراین با مساله درک گفتار توسط دستگاه نیز تفاوتهایی اساسی دارد.
بکاربردهای استماع رایانهای بسیار متنوع و گسترده است، و شامل جستجو برای اصوات ، تشخیص ژانر ، نظارت صوتی ، رونویسی موسیقی ، ضبط امتیاز ، بافت صوتی ، بداهه نواختن موسیقی ، احساسات در صداها و غیره میشود.
موضوعات مرتبط
[ویرایش]استماع رایانه با رشته های زیر همپوشانی دارد:
- بازیابی اطلاعات موسیقی : روش هایی برای جستجو و تجزیه و تحلیل شباهت بین سیگنال های موسیقی.
- تجزیه و تحلیل صحنه شنیداری: درک و توصیف منابع صوتی و رویدادها.
- گوش دادن به ماشین: روش هایی برای استخراج پارامترهای معنی دار شنوایی از سیگنال های صوتی.
- موسیقی شناسی محاسباتی و تئوری موسیقی ریاضی: استفاده از الگوریتم هایی که از دانش موسیقی برای تجزیه و تحلیل داده های موسیقی استفاده می کنند.
- موسیقی رایانه ای : استفاده از رایانه در برنامه های موسیقی خلاقانه.
- نوازندگی ماشینی: سیستم های موسیقی تعاملی شنوایی محور.
موضوعات مورد مطالعه
[ویرایش]از آنجا که سیگنالهای صوتی توسط سیستم گوش-مغز انسان تفسیر می شوند ، بنابراین مکانیسم پیچیده ادراکی باید به نوعی در نرمافزار تحت عنوان "گوش دادن به ماشین" شبیه سازی شود. به عبارت دیگر ، برای عملکرد معادل و همسطح با انسان ، رایانه باید محتوای صوتی را همانطور که انسان میشنود، بشنود و درک کند. تجزیه و تحلیل صوتی به طور دقیق شامل ترکیب کردن چندین موضوع است: مهندسی برق (تجزیه و تحلیل طیف صوتی ، فیلتر کردن و تبدیل صدا). هوشمصنوعی (یادگیری ماشین و دستهبندی صدا)؛ [۶] روان آکوستیک (درک کردن صدا) ؛ علوم شناختی (علوم اعصاب و هوشمصنوعی) ؛ [۷] آکوستیک (فیزیک تولید صدا) ؛ و موسیقی (هارمونی ، ریتم ، و تنبور). علاوه بر این، تغییرات صوتی مانند تغییر گام، طولانیتر شدن از لحاظ زمانی و فیلتر کردن صوتی اشیا، نیز باید از نظر موسیقیایی و ادراک معنیدار باشند. برای نتایج بهتر، این تحولات نیاز به درک ادراکیای از مدلهای طیفی ، استخراج ویژگیهای سطح بالا و عمیق و تحلیل / سنتز صدا دارد. درنهایت، برای ساختاردهی و کدگذاری محتوای یک فایل صوتی (صدا و فراداده) میتوان از روشهای فشرده سازی کارآمد بهره ببرد ، که اطلاعات نامفهوم و غیر قابل شنیدن در صدا را دور میاندازد. [۸] مدلهای محاسباتی موسیقی و درک صدا و شناخت آن می توانند منجر به نمایش معنادارتر ، تغییرات دیجیتالی بصری و تولید صدا و موسیقی در رابط های موسیقی انسان-ماشین شوند.
مطالعه توانایی شنیداری رایانه (CA) می تواند تقریباً به زیرمسائل زیر تقسیم شود:
- نمایش: سیگنال و نمادین. این جنبه با نمایش های فرکانس زمانی ، هم از نظر یادداشت ها و هم از طریق مدل های طیفی ، از جمله پخش الگو و بافت صوتی سروکار دارد.
- استخراج ویژگی ها : توصیف کننده های صدا ، تقسیم بندی ، شروع ، تشخیص گام و پاکت ، کروم و نمایش های شنیداری.
- ساختارهای دانش موسیقی: تجزیه و تحلیل لحن ، ریتم و هارمونی ها .
- شباهت صدا: روش هایی برای مقایسه بین اصوات ، شناسایی صدا ، تشخیص تازگی ، تقسیم بندی و خوشه بندی.
- مدل سازی توالی: مطابقت و هم ترازی سیگنال ها و توالی های یادداشت.
- تفکیک منبع: روشهای گروه بندی اصوات همزمان ، مانند روشهای تشخیص گام چندگانه و خوشه بندی فرکانس زمان.
- شناخت شنیداری: مدل سازی احساسات ، پیش بینی و آشنایی ، تعجب شنیداری و تحلیل ساختار موسیقی.
- تجزیه و تحلیل چند حالت: یافتن مکاتبات بین سیگنالهای متنی ، تصویری و صوتی.
مسائل مربوط به نحوه بیان
[ویرایش]توانایی شنیداری رایانه با سیگنال های صوتیای سروکار دارد که می توانند در انواع مختلفی از جمله کدینگ به صورت مستقیم صدای دیجیتال در دو یا چند کانال تا دستورالعمل های سنتزی به صورت نمادین بیان شوند. سیگنال های صوتی معمولاً به صورت ضبط آنالوگ یا دیجیتال نشان داده می شوند . ضبط های دیجیتالی نمونه هایی از شکل موج صوتی یا پارامترهای الگوریتم های فشرده سازی صدا هستند . یکی از ویژگی های منحصر به فرد سیگنالهای موسیقیایی آن است که آنها اغلب انواع مختلفی از نمایش را باهم ترکیب می کنند ، برای مثال اعداد گرافیکی و توالی ای از عملیات ها که به عنوان فایلهای MIDI رمزگذاری می شوند.
از آنجا که سیگنال های صوتی معمولاً شامل چندین منبع صوتی هستند، بنابراین برخلاف سیگنال های گفتاری که می توانند با توجه به مدل های خاص (مانند مدل فیلتر-منبع) به طور بهینهای بیان شوند ، بیان پارامتری برای صدای کلیای دشوار است. نمایشهای صداها به صورت پارامتری معمولاً از بانکهای فیلتری یا مدلهای سینوسی برای ثبت پارامترهای چندین صدا استفاده می کنند ، گاهی اوقات به منظور گرفتن ساختار داخلی سیگنال ، اندازه نمایش را افزایش می دهند. انواع دیگری از دادهها که به استماع رایانهای مرتبط هستند، توصیفی متنی از محتواهای صوتی ، مانند نوشتار، بازبینی و اطلاعات بصری در مورد ضبط های دیداری و شنیداری است.
ویژگیها
[ویرایش]تتوضیح محتوای سیگنالهای صوتی کلی معمولاً به استخراج ویژگیهایی نیاز دارد که جنبه های خاصی از سیگنال صوتی را ثبت میکنند. به صورت کلی ، می توان ویژگیها را به سیگنال یا توصیفات ریاضیای مانند انرژی، توصیف شکل طیفی و غیره ، توصیف آماری مانند تغییرات یا تشخیص نوآوری، بیانهای ویژهای که با طبیعت سیگنال های موسیقی یا سیستم شنوایی سازگارتر هستند تقسیم کرد ، مانند رشد لگاریتمی حساسیت ( پهنای باند ) در فرکانس یا عدم تحقق اکتاو (کروم).
به این دلیل که مدلهای پارامتریک در صداها معمولاً به پارامترهای بسیاری نیاز دارند ، از این ویژگیها برای خلاصه کردن ویژگیهای چندین پارامتر در یک نمایش فشرده یا برجسته تر استفاده می شود.
دانش موسیقی
[ویرایش]یافتن ساختارهای موسیقی مشخص با استفاده از دانش موسیقیایی و همچنین با روشهای یادگیری ماشین نظارتی و بدون نظارت امکان پذیر است. مثالهایی از این موارد عبارتند از: تشخیص تناژ(تونالیته)بر اساس توزیع فرکانسها که با الگوهای رخ دادن نتها در مقیاس های موسیقیایی مطابقت دارند، توزیع زمان شروع شدن نت برای تشخیص ساختار ضربآهنگ ، توزیع انرژی در فرکانس های مختلف برای تشخیص آکورد موسیقی و غیره.
شباهت صدا و مدل سازی توالی
[ویرایش]مقایسه کردن اصوات را می توان با مقایسه ویژگیها با یا بدون توجه به زمان انجام داد. در بعضی موارد مشابهت کلی را می توان با مقادیر نزدیک ویژگیها بین دو صدا ارزیابی کرد. در موارد دیگر که ساختار زمانی مهم است، لازم است که روش های تاب دهی زمانی پویا برای "اصلاح" کردن تفاوتهای مقیاس های زمانی مختلف رخدادهای صوتی استفاده شوند. یافتن تکرارها و زیردنباله های مشابه رخدادهای صوتی برای کارهایی مانند سنتز بافت و بداهه پردازی ماشین مهم است.
تفکیک منبع
[ویرایش]از آنجایی که یکی از ویژگیهای پایهای صداها این است که شامل چندین منبع همزمان صدا مانند چندین ساز موسیقی، صدای افراد در حال مکالمه، صدای ماشینآلات یا صدای حیوانات می باشد، توانایی شناسایی و جدا کردن منابع جداگانه بسیار مورد اهمیت است. متأسفانه، هیچ روشی وجود ندارد که بتواند این مشکل را به صورت قوی در برابر انواع خطاها حل کند. روشهای موجود برای جداسازی منبع گاهی به همبستگی و ارتباط بین کانالهای مختلف صوتی در ضبطهای چند کاناله متکی هستند. توانایی تفکیک منابع سیگنال های استریو به تکنیک های متفاوتتری نسبت به آنچه که معمولاً در ارتباطاتی که چندین حسگر در دسترس است،نیاز دارد. سایر روشهای جداسازی منبع به یاد دادن یا خوشهبندی ویژگی ها در ضبط تکی، مانند دنبال کردن هارمونیکی مرتبط با هماهنگی برای تشخیص گام چندگانه متکی هستند. برخی از روشها ، قبل از تشخیص واضح و مستقیم، با پیدا کردن کمترین میزان نمایش داده های پیچیده به بیان کردن ساختار میپردازند بدون آنکه از ساختار اطلاعاتی داشته باشند(مانند تشخیص اشیا در تصاویر بدون نسبت دادن برچسب معنی دار به آنها) ، به عنوان مثال توصیف صحنه های صوتی ایجاد شده توسط چند الگوی تن و مسیر آنها (صدای چند صدایی) و خطوط صوتی رسم شده توسط یک لحن (آکورد). [۹]
شناخت شنیداری
[ویرایش]گوش دادن به موسیقی و صدای عمومی معمولاً به عنوان یک کار به صورت مستقیم به حساب نمیآید. افراد به دلایل مختلفی که زیاد شناخته نشده است از موسیقی لذت می برند، اما معمولاً به تأثیر عاطفی موسیقی به دلیل ایجاد انتظارات و دریافتن یا نقض آنها اشاره می شود. حیوانات نشانه هایی از خطر را در صداها بروز می دهند، که می تواند نشانه ای خاص یا کلی از یک تغییر غافلگیر کننده و غیر منتظره باشد. بعموما، این مساله وضعیتی را به وجود میآورد که توانایی شنیداری رایانه نمیتواند فقط به تشخیص ویژگی های خاص یا ویژگی های صدا اعتماد کند و مجبور است روش های عامهی سازگاری با تغییر محیط شنوایی و نظارت بر ساختار آن را ارائه دهد. این روشها شامل تجزیه و تحلیل ساختارهای بزرگتر تکرار و ساختارهای خود-متشابهی در صدا برای تشخیص نوآوری و همچنین توانایی پیش بینی پویایی ویژگی های محلی است.
تجزیه و تحلیل چند حالت
[ویرایش]در میان داده های موجود برای توصیف موسیقی، بازنماییهای متنیای وجود دارد، مانند یادداشت های غیر رسمی، بررسیها و انتقاداتی که محتواها و مفهومهای صوتی را به صورت کلمات توصیف می کنند. در موارد دیگر، عکسالعملهای انسانی مانند قضاوت های عاطفی یا اندازه گیری های روانی-فیزیولوژیکی ممکن است بینشی در مورد محتویات و ساختار صوتی ایجاد کند. توانایی شنیدن رایانه سعی می کند رابطه ای بین این نمایش های مختلف پیدا کند تا درک بیشتری از محتوای صوتی ارائه دهد
جستارهای وابسته
[ویرایش]- محلی سازی صدای سه بعدی
- پردازش سیگنال صوتی
- لیستی از فناوری های نوظهور
- آزمایشگاه هوش پزشکی و مهندسی زبان
- موسیقی و هوش مصنوعی
- تشخیص صدا
پیوند به بیرون
[ویرایش]- آزمایشگاه شنیداری رایانه ای UCSD
- منابع شنیداری رایانه ای جورج تزانتاکیس
- آموزش شنیداری رایانه در مورد شلومو دوبنوف بایگانیشده در ۱۲ مه ۲۰۰۸ توسط Wayback Machine
- گروه مهندسی برق ، IIT (بنگلور)
- محاسبات صدا و موسیقی ، دانشگاه آلبورگ کپنهاگ ، دانمارک
منابع
[ویرایش]- ↑ "Machine Audition: Principles, Algorithms and Systems".
- ↑ "Machine Audition: Principles, Algorithms and Systems" (PDF).
- ↑ Paris Smaragdis taught computers how to play more life-like music
- ↑ {{Tanguiane (Tangian), Andranick (1993). Artificial Perception and Music Recognition. Lecture Notes in Artificial Intelligence. 746. Berlin-Heidelberg: Springer. ISBN 978-3-540-57394-4.}}
{{cite book}}
: Empty citation (help) - ↑ Tanguiane (Tanguiane), Andranick (1994). "A principle of correlativity of perception and its application to music recognition". Music Perception. 11 (4): 465–502. doi:10.2307/40285634.
- ↑ Kelly, Daniel; Caulfield, Brian (Feb 2015). "Pervasive Sound Sensing: A Weakly Supervised Training Approach". IEEE Transactions on Cybernetics. 46 (1): 123–135. doi:10.1109/TCYB.2015.2396291. PMID 25675471.
{{cite journal}}
:|hdl-access=
requires|hdl=
(help) - ↑ Hendrik Purwins, Perfecto Herrera, Maarten Grachten, Amaury Hazan, Ricard Marxer, and Xavier Serra. Computational models of music perception and cognition I: The perceptual and cognitive processing chain. Physics of Life Reviews, vol. 5, no. 3, pp. 151-168, 2008.
- ↑ Machine Listening Course Webpage at MIT
- ↑ Tanguiane (Tangian), Andranick (1995). "Towards axiomatization of music perception". Journal of New Music Research. 24 (3): 247–281. doi:10.1080/09298219508570685.