Спектрограмма - Spectrogram

Спектрограмма произнесенного слова «девятнадцатый век». Частоты показаны в возрастании по вертикальной оси, а время по горизонтальной оси. Легенда справа показывает, что интенсивность цвета увеличивается с увеличением плотности.

А спектрограмма это визуальное представление спектр из частоты сигнала, поскольку он меняется со временем. Применительно к звуковой сигнал, спектрограммы иногда называют сонографы, голосовые отпечатки, или же голосовые диаграммы. Когда данные представлены на трехмерном графике, их можно назвать водопады.

Спектрограммы широко используются в областях Музыка, лингвистика, сонар, радар, обработка речи,[1] сейсмология, и другие. Спектрограммы звука могут использоваться для идентификации произносимых слов фонетически, и проанализировать различные крики животных.

Спектрограмма может быть сгенерирована оптический спектрометр, банк полосовые фильтры, к преобразование Фурье или вейвлет-преобразование (в этом случае он также известен как скейлограмма или же скалограмма).[2]

Скалеограммы из DWT и CWT для аудио образца

Спектрограмма обычно изображается как Тепловая карта, т.е. как изображение с интенсивностью, показанной изменением цвет или же яркость.

Формат

Распространенным форматом является диаграмма с двумя геометрическими измерениями: одна ось представляет время, а другая ось представляет частота; третье измерение, указывающее на амплитуда определенной частоты в определенное время представлено интенсивность или цвет каждой точки изображения.

Существует множество вариантов формата: иногда вертикальная и горизонтальная оси меняются местами, поэтому время идет вверх и вниз; иногда как водопад участок где амплитуда представлена ​​высотой трехмерной поверхности вместо цвета или интенсивности. Оси частоты и амплитуды могут быть либо линейный или же логарифмический, в зависимости от того, для чего используется график. Аудио обычно будет представлено с логарифмической осью амплитуды (вероятно, в децибелы, или дБ), а частота будет линейной, чтобы подчеркнуть гармонические отношения, или логарифмической, чтобы подчеркнуть музыкальные тональные отношения.

Поколение

Спектрограммы света могут быть созданы непосредственно с помощью оптический спектрометр через некоторое время.

Спектрограммы могут быть созданы из область времени сигнал одним из двух способов: аппроксимированный как набор фильтров, который получается из серии полосовые фильтры (это был единственный способ до появления современной цифровой обработки сигналов), или рассчитанный из сигнала времени с использованием преобразование Фурье. Эти два метода фактически образуют два разных частотно-временные представления, но при некоторых условиях эквивалентны.

Метод полосовых фильтров обычно использует аналог обработка для разделения входного сигнала на полосы частот; величина выходного сигнала каждого фильтра управляет преобразователем, который записывает спектрограмму в виде изображения на бумаге.[3]

Создание спектрограммы с использованием БПФ - это цифровой процесс. В цифровом виде отобранный данные, в область времени, разбивается на фрагменты, которые обычно перекрываются, и преобразуется Фурье для расчета величины частотного спектра для каждого фрагмента. Каждый фрагмент соответствует вертикальной линии на изображении; измерение величины в зависимости от частоты в определенный момент времени (средняя точка фрагмента). Эти спектры или графики времени затем «накладываются бок о бок», чтобы сформировать изображение или трехмерную поверхность,[4] или слегка перекрываются разными способами, т.е. окна. Этот процесс по существу соответствует вычислению квадрата величина из кратковременное преобразование Фурье (STFT) сигнала - то есть для ширины окна , .[5]

Ограничения и ресинтез

Из приведенной выше формулы следует, что спектрограмма не содержит информации о точном или даже приблизительном фаза сигнала, который он представляет. По этой причине невозможно обратить процесс и сгенерировать копию исходного сигнала из спектрограммы, хотя в ситуациях, когда точная начальная фаза не важна, может быть возможно сгенерировать полезную аппроксимацию исходного сигнала. Спектрограф звука для анализа и ресинтеза[6] это пример компьютерной программы, которая пытается это сделать. В Воспроизведение паттернов был одним из первых синтезаторов речи, разработанным в Лаборатории Хаскинса в конце 1940-х годов это преобразовало изображения акустических паттернов речи (спектрограммы) обратно в звук.

Фактически, в спектрограмме есть некоторая фазовая информация, но она появляется в другой форме, как временная задержка (или групповая задержка), которая является двойной из Мгновенная частота[нужна цитата ].

Размер и форму окна анализа можно изменять. Меньшее (более короткое) окно даст более точные результаты по времени за счет точности представления частоты. Более крупное (более длинное) окно обеспечит более точное представление частоты за счет точности представления времени. Это пример Принцип неопределенности Гейзенберга, что произведение точности на два сопряженные переменные больше или равно константе (B * T> = 1 в обычных обозначениях).[7]

Приложения

  • Ранние аналоговые спектрограммы применялись в широком диапазоне областей, включая изучение криков птиц (таких как большая синица ), текущие исследования продолжаются с использованием современного цифрового оборудования.[8] и применяется ко всем звукам животных. Современное использование цифровой спектрограммы особенно полезно для изучения модуляция частоты (FM) в криках животных. В частности, отличительные характеристики FM-щебетания, широкополосных щелчков и социальной гармонизации легче всего визуализировать с помощью спектрограммы.
  • Спектрограммы полезны для помощи в преодолении дефицита речи и в обучении речи той части населения, которая глубоко глухой[9]
  • Исследования фонетика и синтез речи часто упрощаются за счет использования спектрограмм.[10][11]
  • При синтезе речи на основе глубокого обучения спектрограмма (или спектрограмма в масштабе mel) сначала предсказывается моделью seq2seq, затем спектрограмма подается на нейронный вокодер для получения синтезированной необработанной формы волны.
  • Путем обращения процесса создания спектрограммы можно создать сигнал, спектрограмма которого представляет собой произвольное изображение. Этот метод можно использовать, чтобы скрыть изображение в аудиозаписи, и его использовали несколько электронная музыка художники.[12] Смотрите также стеганография.
  • Некоторая современная музыка создается с использованием спектрограмм в качестве промежуточного носителя; изменение интенсивности различных частот с течением времени или даже создание новых путем их рисования и последующего обратного преобразования. Видеть Изменение шкалы времени звука и Фазовый вокодер.
  • Спектрограммы могут использоваться для анализа результатов прохождения тестового сигнала через сигнальный процессор, такой как фильтр, с целью проверки его производительности.[13]
  • Спектрограммы высокого разрешения используются при разработке систем ВЧ и СВЧ.[14]
  • Спектрограммы теперь используются для отображения параметры рассеяния измеряется с помощью векторных анализаторов цепей[15]
  • В Геологическая служба США и Консорциум IRIS отображение спектрограмм почти в реальном времени для мониторинга сейсмических станций[16][17]
  • Спектрограммы можно использовать с повторяющиеся нейронные сети для распознавания речи.[18]

Смотрите также

Рекомендации

  1. ^ Дж. Л. Фланаган, Анализ речи, синтез и восприятие, Springer-Verlag, Нью-Йорк, 1972
  2. ^ Sejdic, E .; Джурович, И .; Станкович, Л. (август 2008 г.). "Количественный анализ характеристик скалограммы как мгновенного оценщика частоты". Транзакции IEEE при обработке сигналов. 56 (8): 3837–3845. Bibcode:2008ITSP ... 56.3837S. Дои:10.1109 / TSP.2008.924856. ISSN  1053-587X. S2CID  16396084.
  3. ^ «Спектрограф». www.sfu.ca. Получено 7 апреля 2018.
  4. ^ «Спектрограммы». ccrma.stanford.edu. Получено 7 апреля 2018.
  5. ^ "Спектрограммы STFT VI - Справка по NI LabVIEW 8.6". zone.ni.com. Получено 7 апреля 2018.
  6. ^ "Спектрограф звука для анализа и ресинтеза". arss.sourceforge.net. Получено 7 апреля 2018.
  7. ^ http://fourier.eng.hmc.edu/e161/lectures/fourier/node2.html
  8. ^ "ПТИЦЫ ПЕСНИ И ЗВОНКИ СО СПЕКТРОГРАММАМИ (СОНОГРАММАМИ) ЮЖНОЙ ТОСКАНЫ (Тоскана - Италия)". www.birdsongs.it. Получено 7 апреля 2018.
  9. ^ Saunders, Frank A .; Hill, William A .; Франклин, Барбара (1 декабря 1981 г.). «Носимое тактильное сенсорное средство для глухих детей». Журнал медицинских систем. 5 (4): 265–270. Дои:10.1007 / BF02222144. PMID  7320662. S2CID  26620843.
  10. ^ «Чтение спектрограммы». ogi.edu. Архивировано из оригинал 27 апреля 1999 г.. Получено 7 апреля 2018.
  11. ^ «Праат: фонетика на компьютере». www.fon.hum.uva.nl. Получено 7 апреля 2018.
  12. ^ "Лицо Афекса - липа". www.bastwood.com. Получено 7 апреля 2018.
  13. ^ «Сравнение SRC». src.infinitewave.ca. Получено 7 апреля 2018.
  14. ^ "constantwave.com - ресурсы и информация constantwave". www.constantwave.com. Получено 7 апреля 2018.
  15. ^ «Спектрограммы для векторных анализаторов цепей». Архивировано из оригинал на 2012-08-10.
  16. ^ «Отображение спектрограммы в реальном времени». earthquake.usgs.gov. Получено 7 апреля 2018.
  17. ^ "IRIS: MUSTANG: Шум-спектрограмма: Документы: v. 1: Помощь".
  18. ^ Гайтгей, Адам (24 декабря 2016 г.). «Машинное обучение - это весело. Часть 6: как распознавать речь с помощью глубокого обучения». Середина. Получено 2018-03-21.

внешняя ссылка