Дворянкин Сергей Владимирович, кандидат технических наук ЦИФРОВАЯ ОБРАБОТКА ИЗОБРАЖЕНИЙ ДИНАМИЧЕСКИХ СПЕКТРОГРАММ АУДИО СИГНАЛОВ В ЗАДАЧАХ БЕЗОПАСНОСТИ РЕЧЕВОЙ СВЯЗИ Источник: журнал Введение По оценкам отечественных и зарубежных специалистов значительная часть передаваемой по общедоступным каналам электросвязи информации приходится на долю речевых сообщений. Такое положение дел определенно сохранится и в будущем, поскольку такому универсальному инструменту человеческого общения как речь, обладающему уникальными признаками эффекта присутствия, эмоциональной окраски, аутентификации, информационной избыточности и другими, присущими только данному коммуникативному (переговорному) процессу, трудно найти какую-либо эквивалентную замену во многих системах связи и передачи информации. Вот почему задачи защиты речевой информации занимают одно из ведущих мест в решении общей проблемы информационной безопасности. В настоящее время ощущается острая необходимость создания новых специальных программно-аппаратных технических средств и комплексов защиты речевой информации на основе стандартных вычислительных устройств, в которых может быть достигнута значительная экономия временных и материальных ресурсов, затрачиваемых сегодня на разработку традиционных средств специальной техники. Кроме того, может быть увеличен срок использования такого вида новой техники за счет обновления как, прежде всего, программных, так и аппаратных компонентов. Отставание на сегодняшний день наблюдается лишь в общих методах цифровой обработки аудио сигналов, применительно к решению различных задач обеспечения безопасности речевой связи. И здесь как нигде более нужны новые компьютерные технологии получения описаний и обработки речевого сигнала (РС). Частотно-временные описания аудиосигналов и речи Как и для большинства других исследований по данной тематике для облегчения понимания последующих выкладок можно ввести определение фонообъекта, под которым здесь и далее будет пониматься реальный объект, генерирующий и излучающий в звуковом диапазоне частот сигналы, которые, будучи преобразованы в цифровую форму, могут записываться и хранится в памяти компьютера в виде отдельных файлов с целью последующей обработки и/или передачи. Также заметим, что под категорию фонообъекта может попадать не только речь человека, но и звуки иной природы, в том числе и различного вида шумы и помехи, которые мешают правильному и качественному слуховому восприятию речевого сигнала, ухудшают или искажают его понимание. Под следами же фонообъекта будем понимать такое его параметрическое описание, которое позволяет либо полностью воссоздать его звучание, либо восстановить и озвучить "новый" аудио сигнал по измененным и заданным в этом параметрическом описании свойствам. Отметим также, что сложный фонообъект, под которым понимается одновременная совокупность некоторых простейших звуков, можно представить в виде суммы фонообъектов его составляющих. Так вокализованный участок речи с квазигармонической помехой можно представить как суперпозицию помехи и речевого сигнала, который в свою очередь можно рассматривать как совокупность звучания отдельных обертонов, также входящих в состав данного исследуемого звукового фрагмента. В таком примере, все приведенные звуковые слагаемые удобно рассматривать в виде совокупности узкополосных сигналов, имея ввиду, что все спектральные составляющие каждого элементарного звука группируются в относительно узкой по сравнению с некоторой центральной частотой полосе. Впрочем, иногда и сам сложный фонообъект также удобно рассматривать в виде узкополосного процесса. Из анализа многочисленных публикаций можно сделать вывод, что основными понятиями, которыми приходится оперировать при обсуждении большинства вопросов обеспечения безопасности речевой связи посредством компьютерных технологий, являются понятия разборчивости-неразборчивости речи и тесно связанные с этим понятия выявления, восстановления и реконструкции параметров узкополосных сигналов (следов фонообъектов), совокупность которых и составляет исходный, исследуемый аудио или речевой сигнал (фонообъект). Модификацией, изменением или удалением именно этих параметров можно достичь решения конкретной поставленной задачи. Поэтому разработка и совершенствование компьютерных технологий безопасности речевой связи будет, прежде всего, зависеть от принятых количественных мер оценки узкополосных сигналов, составляющих аудио сигналы и речь, передаваемых - принимаемых в общедоступных каналах связи и/или хранимых на различных материальных носителях. Исходя из вышесказанного, понятно, что для понимания процессов аудио преобразований, посредством цифровой обработки изображений динамических спектрограмм, желательно выбрать модель аналитического представления звукового сигнала, с которой в дальнейшем было бы удобно работать. В качестве такой модели можно использовать аналитическое описание звукового сигнала в виде суммы узкополосных сигналов по Гильберту. Результаты исследований последних лет показали, что данные, необходимые для расчета параметров (амплитуд и фаз) следов фонообъектов могут содержаться в динамических спектральных развертках речевого сигнала - амплитудно-фазовых, частотно-временных описаниях мгновенных спектров речи с заданным шагом наблюдения (анализа) по времени и по частоте, - и, прежде всего, в изображениях узкополосных амплитудных сонограмм. Такие развертки, часто называемые матрицами динамических спектральных состояний (МДСС), можно получать в ходе динамического спектрального анализа-синтеза речи (ДСАС), скользя по исходному сигналу выбранным окном анализа с переходом от взвешенных им выборок к их частотному образу на базе принятого ортогонального базиса. Примером такого рода технологий может служить кратковременный Фурье анализ-синтез звуковых сигналов, часто используемый в цифровых системах речепреобразования. Следы фонообъектов различной природы в виде параметров амплитуд и фаз узкополосных сигналов их составляющих, как будет показано ниже, проявляются на изображениях динамических спектрограмм в виде совокупности контуров (линий) перепада яркости или треков (цепочек) локальных и глобальных экстремумов цветовой насыщенности в уровнях одного цв
ваш уровень доступа:Открытый
в т.ч для открытого доступа:775
аналитических материалов:980
в т.ч для открытого доступа:5305
последнее обновление:29.01.2013
Цифровая обработка изображений динамических спектрограмм аудио сигналов в задачах безопасности речевой связи..
Комментариев нет:
Отправить комментарий