Вопросы передачи мультимедиа в И

39. Вопросы передачи мультимедиа в Интернет. Методы сжатия и передачи звука и видеоизображения.

  1. Аддитивный (additive). Основан на утвеpждении Фуpье о том, что любое пеpиодическое  колебание  можно  пpедставить  в  виде  суммы  чистых   тонов (синусоидальных колебаний с pазличными частотами и амплитудами).  Для  этого нужен  набоp  из  нескольких  синусоидальных   генеpатоpов   с   независимым упpавлением,   выходные   сигналы   которых   суммируются   для    получения pезультиpующего сигнала. Hа этом методе основан  принцип  создания  звука  в духовом органе.

    Достоинства метода: позволяет  получить  любой  пеpиодический  звук,  и пpоцесс  синтеза  хоpошо  пpедсказуем   (изменение   настpойки   одного   из генеpатоpов  не  влияет  на  остальную  часть  спектpа  звука).  Ос-  новной недостаток  -  для  звуков  сложной  стpуктуpы  могут  потpебоваться   сотни

генеpатоpов, что достаточно сложно и доpого pеализовать.

    2. Разностный (subtractive). Идеологически  пpотивоположен  пеpвому.  В основу положена генеpация звукового сигнала с богатым  спектpом  (множеством частотных  составляющих)  с  последующей   фильтpацией   (выделением   одних составляющих и ослаблением дpугих) -  по  этому  пpинципу  pаботает  pечевой аппаpат человека. В качестве исходных сигналов  обычно  используются  меандp (пpямоугольный, square), с пеpеменной скважностью (отношением всего  пеpиода к положительному полупеpиоду), пилообpазный (saw) -  пpямой  и  обpатный,  и тpеугольный  (triangle),   а   также   pазличные   виды   шумов   (случайных непеpиодических колебаний). Основным оpганом синтеза в  этом  методе  служат упpавляемые фильтpы: pезонансный (полосовой) -  с  изменяемым  положением  и шиpиной полосы пpопускания (band) и фильтp нижних частот (ФHЧ)  с  изменямой частотой сpеза (cutoff). Для каждого фильтpа также pегулиpуется  добpотность (Q) - кpутизна подъема или спада на pезонансной частоте.

    Достоинства метода - относительно пpостая pеализация и довольно шиpокий диапазон синтезиpуемых звуков. Hа этом методе постpоено множество  студийных и концеpтных синтезатоpов (типичный пpедста- витель -  Moog).  Hедостаток  - для  синтеза  звуков  со  сложным  спектpом  тpебуется  большое   количество

упpавляемых фильтpов, котоpые достаточно сложны и доpоги.

    3.  Частотно-модуляционный  (frequency  modulation  -  FM).  В   основу положена взаимная модуляция по  частоте  между  несколькими  синусоидальными генеpатоpами.  Каждый  из   таких   генеpатоpов,   снабженный   собственными фоpмиpователем  амплитудной  огибающей,  амплитудным  и  частотным  вибpато, именуетчся опеpатоpом. Различные способы соединения  нескольких  опеpатоpов, когда  сигналы  с  выходов  одних  упpавляют  pаботой   дpугих,   называются алгоpитмами синтеза. Алгоpитм может включать  один  или  больше  опеpатоpов, соединенных  последовательно,  паpаллельно,  последовательно-паpаллельно,  с обpатными  связями  и  в  пpочих  сочетаниях  -  все  это  дает  пpактически бесконечное множество возможных звуков.

    Благодаpя  пpостоте  цифpовой   pеализации,   метод   получил   шиpокое pаспpостpанение в студийной и концеpтной  пpактике  (типичный  пpедставитель класса синтезатоpов - Yamaha DX). Однако  пpактическое  использование  этого метода достаточно сложно из-за того, что большая часть звуков, получаемых  с его помощью, пpедставляет собой шумоподобные колебания,  и  достаточно  лишь слегка  изменить  настpойку  одного  из  генеpатоpов,  чтобы  чистый   тембp пpевpатился в шум. Однако метод дает шиpокие возможности по синтезу  pазного pода удаpных звуков, а также - pазличных звуковых эффектов,  недостижимых  в дpугих методах pазумной сложности.

    4. Самплеpный (sample - выбоpка). В этом методе  записывается  pеальное звучание  (сампл),  котоpое  затем  в  нужный  момент  воспpоизводится.  Для получения звуков pазной высоты воспpоизведение ускоpяется  или  замедляется; чтобы тембp звука не менялся слишком сильно, используется несколько  записей звучания чеpез опpеделенные интеpвалы (обычно - чеpез  одну-две  октавы).  В pанних самплеpных синтезатоpах звуки в  буквальном  смысле  записывались  на магнитофон, в совpеменных пpименяется цифpовая запись звука.

    Метод позволяет получить сколь угодно точное подобие звучания pеального инстpумента, однако для этого тpебуются достаточно большие объемы памяти.  С дpугой стоpоны, запись звучит естественно только пpи тех же паpаметpах,  пpи котоpых она  была  сделана  -  пpи  попытке,  напpимеp,  пpидать  ей  дpугую

амплитудную огибающую естественность pезко падает.

    Для уменьшения тpебуемого объема памяти пpименяется зацикливание сампла (looping).  В  этом  случае  записывается  только  коpоткое  вpемя  звучания инстpумента,  затем  в  нем  выделяется  сpедняя   фаза   с   установившимся (sustained) звуком, котоpая пpи  воспpоизведении  повтоpяется  до  тех  поp, пока включена нота (нажата  клавиша),  а  после  отпускания  воспpоизводится концевая фаза.

    Hа самом деле этот метод нельзя с полным пpавом называть синтезом – это скоpее метод записи-воспpоизведения. Однако в  совpеменных  синтезатоpах  на его основе воспpоизводимый  звук  можно  подвеpгать  pазличной  обpаботке  - модуляции, фильтpованию, добавлению новых  гаpмоник,  звуковых  эффектов,  в pезультате чего  звук  может  пpиобpетать  совеpшенно  новый  тембp,  иногда совсем непохо- жий на пеpвоначальный. По сути,  получается  комбинация  тpех основных методов синтеза, где  в  качестве  основного  сигнала  используется исходное звучание.

Без эффективного сжатия большинство локальных сетей, по которым передаются видео данные, были бы заблокированы в течение нескольких секунд. Стандарт CCIR-601 для цифрового телевидения устанавливает что размер передаваемого TV изображения без компрессии в течении одной секунды составляет 165 Mbit, в минуту - 9.900 Mbit (9.9 Gbit), в час - 594 Gbit. Для 24 часовой записи потребуется 14.256 Gbit (14,3 Tbit). Что соответствует примерно двадцати двум жестким дискам емкостью 80Гб. Если, к примеру, использовать модем со скоростью передачи 56 Kbit/s, то ему потребуется около 8 лет для передачи одного дня видео съемки. Для ускорения передачи и более рационального использования дискового пространства цифровое видео, передаваемое по сетям Ethernet, всегда сжимается. Именно поэтому, очень важно правильно выбрать формат сжатия.

Многообразие методов компрессии изображения.

Компрессия статического или видео изображения может быть осуществлено двумя основными методами – с потерей или без потери качества.

Сжатие без потерь данных - полученное после декомпрессии изображение будет в точности (побитно) совпадать с оригиналом. Примером такого сжатия может служить формат GIF для статической графики и GIF89a для видео. Поскольку коэффициент сжатия, при использовании таких видов компрессии, небольшой, их использование достаточно затруднительно, т.к. в сетевых видео решениях передаются большие объемы видео информации.

Сжатие с потерями качества - потери качества могут наблюдаться в случае, если в процессе сжатия информация была утеряна. Однако с точки зрения человеческого восприятия сжатием с потерями следует считать лишь то сжатие, при котором на глаз можно отличить результат сжатия от оригинала. Таким образом, несмотря на то, что два изображения – оригинал и результат сжатия с использованием того или иного компрессора — побитно могут не совпадать, разница между ними будет совсем незаметной. Основная идея – значительно увеличить коэффициент сжатия, пренебрегнув незначительными деталями, не заметными для человеческого глаза. Примерами здесь могут служить алгоритмы JPEG для сжатия статической графики и алгоритм M-JPEG для сжатия видео.

Сжатие без потерь с точки зрения восприятия

Данные после декомпрессии побитно не совпадают с исходными. Будучи сжатием с потерей качества, формально подобная схема сжатия с точки зрения восприятия ее человеком может считаться схемой без потерь. Большинство технологий сжатия с формальной потерей качества имеют так называемый фактор качества сжатия (ФКС), характеризующий именно качество восприятия и варьирующийся в пределах от 0 до 100. При факторе качества сжатия, равном 100, характеристики восприятия качества декомпрессированного видео по восприятию почти неотличимы от оригинала.

Сжатие с естественной потерей качества

JPEG, MPEG и другие технологии сжатия с потерей качества иногда сжимают, переступая за грань сжатия без потерь с точки зрения восприятия видеоинформации. Тем не менее сжатые видео- и статические изображения вполне приемлемы для адекватного восприятия их человеком.
Иными словами, в данном случае наблюдается так называемая естественная деградация изображения, при которой теряются некоторые мелкие детали сцены. Похожее может происходить и в естественных условиях, например при дожде или тумане. Изображение в таких условиях, как правило, различимо, однако уменьшается его детализация.

Сжатие с неестественными потерями качества

    Низкое качество сжатия, в значительной степени искажающее изображение и вносящее в него искусственные (не существующие в оригинале) детали сцены, называется неестественным сжатием с потерей качества. Примером тому может служить некоторая «блочность» в сильно сжатом MPEG,е и в некоторых других компрессорах.
    Неестественность заключается в первую очередь в нарушении самых важных с точки зрения восприятия человеком характеристик изображения — контуров. Опыт показывает, что именно контуры позволяют человеку правильно идентифицировать тот или иной визуальный объект.
    Отметим также, что все широко используемые видеокомпрессоры используют технологии сжатия с потерями качества. При различных значениях ФКС может дать на выходе качество видео как без потерь с точки зрения восприятия, так и с неестественными потерями.

Методы сжатия также содержат два различных подхода к стандартам сжатия: сжатие статического изображения и сжатие видео.

Методы компрессии статического изображения.

Все стандарты сжатия статического изображения направлены на обработку одного единственного образа. Самый известный и широко распространенный стандарт - JPEG.

    JPEG – сокращение от Joint Photographic Experts Group (Объединенная Фотографическая Группа Экспертов) – качественный и очень популярный стандарт для статических изображений, который поддерживается практически всеми современными программами. Для просмотра JPEG файлов достаточно стандартных Web-браузеров, которые осуществляют их декомпрессию и отображение на мониторе.
При JPEG компрессии могут использоваться различные уровни сжатия, устанавливаемые пользователем,   которые определяют насколько изображение должно быть сжато. Выбранный уровень непосредственно связан с качеством картинки и размером файла.
    На степень сжатия (размер файла) помимо уровня сжатия непосредственно влияет и само изображение. Например, размер файла с изображением белой стены будет относительно невелик и иметь более высокую степень сжатия, в то время, размер файла, с тем же самым уровнем сжатия, отображающий сложную сцену с большим количеством деталей и цветовых переходов, будет иметь больший размер с более низкой степенью сжатия.

    Некоторые основные принципы JPEG компрессии:
    - Чем больше изображение, тем больше данных оно содержит.
    - Чем выше уровень сжатия, тем меньше данных сохраняется и тем более «размытым» становится изображение.
    - Чем больше деталей на изображении, тем больше требуется данных для их сохранения. Например: красочное изображение дерева содержит значительно больше данных чем изображение однотонной стены.

Ниже приведены примеры JPEG изображений с различными уровнями детализации. Ветви деревьев состоят из большого количества деталей, и соответственно для их сохранения и отображения требуется файл большего размера.

Примеры JPEG изображения с различными уровнями сжатия:

JPEG-2000
Еще один формат сжатия, разработанный той же Группой экспертов, JPEG-2000. Он разрабатывался специально для медицинских приложений и цифровой фотографии. При низких уровнях компрессии, обработка изображения происходит аналогично формату JPEG, а при больших степенях сжатия, благодаря новым, прогрессивным, но более сложным алгоритмам, изображение получается более качественным, чем при JPEG. Из-за того, что большинство ПО, в том числе и web-браузеры, не поддерживают этот стандарт, использование JPEG-2000 сильно ограниченно.

Методы компрессии видео изображения.

MotionJPEG предcтавляет видео как последовательность JPEG кадров. MotionJPEG один из основных стандартов, используемых в сетевых видео системах. Сетевая видеокамера, подобно цифровому фотоаппарату, обрабатывает отдельные изображения, сжимая их в формат JPEG. Сетевая камера может обрабатывать несколько кадров в течении одной секунды (Axis 221 до 60 кадров в секунду), а затем, создав непрерывный поток, транслировать их в сеть. При скорости 16 кдр/сек и выше, человеческий глаз воспринимает поток образов как непрерывное видео. Поскольку MotionJPEG представляет собой поток отдельных JPEG картинок, его можно сравнить с кинопленкой - каждый кадр имеет четкое изображение, качество которого определяется только уровнем сжатия, выбранным для отдельной сетевой видеокамеры или видео сервера.

Пример последовательности трех полных кадров JPEG:

H.263 – формат сжатия предназначенный для передачи видео с постоянной, фиксированной скоростью. Основным недостатком фиксированной скорости является то, что при движении объекта качество изображения падает. H.263 был разработан для видео конференц-связи, а не для наблюдения, где отображение деталей являются более критичным, чем скорость передачи данных.

MPEG
Основы разработки стандарта MPEG были заложены группой ученых из MPEG (Motion Picture Experts Group) еще в 80х годах прошлого века. Основной принцип MPEG сжатия это сравнение двух последовательных образов и передача по сети только небольшого количества кадров (так называемые I-frame или ключевые кадры), содержащих полную информацию об изображении. Остальные кадры (промежуточные кадры, P-frame) содержат только отличия этого кадра от предыдущего. Иногда применяют двунаправленные кадры (B-frame), информация в которых кодируется на основании предыдущего и последующего кадров, что позволяет дополнительно повысить степень сжатия видео. Во всех форматах MPEG используетсят метод компенсации движения.
Несмотря на большую сложность при кодировании/декодировании видео сигнала, MPEG сжатие позволяет значительно снизить (в разы) объемы передаваемой по сети информации по сравнению с MotionJPEG. Иллюстрация показывает, что передаются только различия между кадрами:

Естественно, это достаточно схематичное объяснение, алгоритмы MPEG намного сложнее. При кодировании учитывается текстура изображения, используются методы предсказания движения, квантизация и статистическое кодирование.

    Основа кодирования у группы алгоритмов MPEG общая. Основные идеи, применяемые в ходе сжатия видеоданных с ее помощью, следующие:
    - устранение временной избыточности видео, учитывающее тот факт, что в пределах коротких интервалов времени большинство фрагментов сцены оказываются неподвижными или незначительно смещаются по полю.
    - устранение пространственной избыточности изображений путем подавления мелких деталей сцены, несущественных для визуального восприятия человеком.
    - использование более низкого цветового разрешения при yuv-предеставлении изображений (y — яркость, u и v — цветоразностные сигналы) — установлено, что глаз менее чувствителен к пространственным изменениям оттенков цвета по сравнению с изменениями яркости.
    - повышение информационной плотности результирующего цифрового потока путем выбора оптимального математического кода для его описания (например, использование более коротких кодовых слов для наиболее часто повторяемых значений).

На данный момент существует три стандарта MPEG для передачи видео информации.

MPEG-1 был стандартизован и начал использоваться в 1993. Он был предназначен сжатия и хранения видео на компакт дисках. Большинство кодирующих устройств MPEG-1 и декодеров разработаны для скорости передачи данных порядка 1.5Mbit/s при разрешении CIF. Основной упор при его разработке делался на сохранении постоянной скорости передачи, при переменном качестве видео изображения, сравнимым с качеством VHS. При кодировании используется дискретно-косинусное преобразование - выполняется апроксимация внутри блока 8х8 пикселей волновыми функциями. Скорость передачи видео изображения в MPEG-1 ограничена 25 кадрами в секунду в стандарте PAL и 30 в NTSC. В данный момент этот стандарт практически не используется.

MPEG-2 был принят в качестве стандарта в 1994 для применения в высококачественном цифровом видео (DVD), цифровом телевидении высокого качества (HDTV), интерактивных носителях информации (ISM), цифровом радиовещательном видео (DBV) и кабельном телевидении (CATV). При разработке MPEG-2 усилия были сосредоточены на расширении техники сжатия MPEG-1, позволяющей обрабатывать большие изображения с более высоким качеством при более низкой степени сжатия и более высокой скорости побитной передачи данных. . Так же, как и в MPEG-1 при кодировании используется дискретно-косинусное преобразование, но обрабатываемые блоки увеличены в 4 раза - 16х16 пикселей. Скорость передачи видео изображения ограничена 25 кадрами в секунду в стандарте PAL и 30 в NTSC, так же, как в MPEG-1.

    MPEG-4 – дальнейшее развитие стандарта MPEG-2. Основы разработки стандарта MPEG-4 были заложены группой ученых из MPEG еще в 1993 году, и уже к концу 1998 года произошло утверждение первого стандарта. Впоследствии стандарт неоднократно дорабатывался, в 1999 году получил официальный статус и затем был стандартизован со стороны ISO/IEC.
    Целью создания MPEG-4 была выработка стандарта кодирования, который обеспечил бы разработчиков универсальным средством сжатия видеоданных, позволяющим обрабатывать аудио- и видеоданные как естественного (снятого с помощью видеокамеры или записанного с помощью микрофона), так и искусственного (синтезированного или сгенерированного на компьютере) происхождения. Это обстоятельство кардинальным образом отличает MPEG-4 как видеостандарт от его предшественников MPEG-1 и MPEG-2, в которых эффективное сжатие данных достигается лишь применительно к естественному видео и аудио.
    MPEG-4 обеспечивает необходимые средства для описания взаимного расположения объектов (элементов) сцены в пространстве и времени с целью их последующего представления потенциальным зрителям в ходе воспроизведения. Разумеется, такая трактовка предполагает разделение сцены на составляющие ее объекты, что само по себе является весьма трудоемкой задачей, к которой по сути и сводится MPEG-4-кодирование. Кроме того, при разработке стандарта MPEG-4 решались проблемы обеспечения воспроизведения объектов сцены в различных условиях пропускной способности сетей передачи данных. Был разработан формат, допускающий «универсальный доступ» к мультимедийной информации с учетом возможных ограничений полосы пропускания, возникающих в сетях при самых разных условиях. Другими словами, один и тот же видеофрагмент может быть представлен с различным качеством для различных каналов в зависимости от их пропускной способности.

Поддержка формата MPEG-4 сетевыми камерами и видеосерверами Axis.

    Большая часть оборудования для систем видеоблюдения Axis может передавать живое видео одновременно в двух форматах – Motion-JPEG и MPEG-4. Это позволяет использовать имеющиеся ресурсы с максимальной эффективностью – получать максимальное качество изображения при записи и значительно уменьшить требуемую полосу пропускания при просмотре.
    Применяемые в камерах и видеосерверах Axis кодировщики MPEG-4 полностью соответствуют стандарту 14496-2 ISO/IEC (Международная Организация по Стандартизации/Международная электротехническая комиссия) и поддерживают Расширенный Простой профиль (ASP) 5-го уровня, который позволяет использовать широкий диапазон настроек, дающих возможность формировать потоки, оптимизированные по полосе пропускания и качеству изображения. Установленное в камерах программное обеспечение Axis Media Control (AMC) со встроенным кодеком MPEG-4 позволяет без проблем просматривать, передаваемый камерой видеопоток и интегрировать его различные приложения.
    Возможность транслировать видео формата MPEG-4 в режиме Multicast позволяет одновременно просматривать его практически неограниченным количеством пользователей без увеличения нагрузки на сеть.
    Основной задачей при выборе стандарта сжатия, Motion-JPEG или MPEG-4, является гарантия получения максимально высокого качества изображения.

Перспективные технологии - Advanced Video Coding (Расширенное кодирование видео данных)

В последнее время, описанные выше форматы сжатия H.263 и MPEG, начинают объединять, беря из них самое лучшее и передовое, для создания нового стандарта сжатия видео следующего поколения. Ожидается, что в течении ближайших нескольких лет, появится новый, более прогрессивный, стандарт сжатия потокового видео, который заменит используемые в настоящее время H.263 и MPEG-4.

Преимущества и недостатки форматов Motion-JPEG, MPEG-2, MPEG-4

    Благодаря простоте, стандарт Motion-JPEG широко используется во многих системах и зачастую является удачным выбором для решения задач видеонаблюдения. При его использовании задержка между получением и кодированием изображения в камере, передачей его по сети, декодированием и отображении на экране монитора незначительна. Другими словами, из-за своей простоты, Motion-JPEG обеспечивает минимальное время задержки между реальным событием и его цифровым отображением, что позволяет оперативно обрабатывать изображение, например используя детектор движения, и отслеживать движущиеся объекты. При использовании формата Motion-JPEG возможна передача изображения с любым разрешением, начиная от самого минимального QVGA для мобильного телефона, до разрешения в несколько мегапикселов. Он гарантирует качество изображения не зависимо от его сложности и количества/размера движущихся объектов, предлагая пользователю выбрать наиболее оптимальные параметры, подходящие для его системы – высокое качество изображения (низкое сжатие) или более низкое качество (высокое сжатие) и меньшие размеры файла, позволяющие снизить нагрузку на сеть и уменьшить размеры дискового пространства, необходимые для хранения видео информации. Скорость передачи кадров может быть установлена принудительно и подстраивается автоматически под имеющуюся полосу пропускания без потери качества изображения.
    Однако при компрессии Motion-JPEG не используются алгоритмы видео сжатия, это производит к относительно большим объемам данных, передающихся по сети. В этом отношении, форматы MPEG имеют преимущество по сравнению с M-JPEG, т.к. по сети за единицу времени передается меньший объем информации (более низкий bit-rate). Если существуют ограничения по полосе пропускания, если видео должно записываться с большой скоростью и есть ограничения по размеру дискового пространства – выбор MPEG сжатия может оказаться единственно возможным. Он обеспечивает относительно высокое качество изображения при более низкой нагрузке на транспортную магистраль (требуется меньшая полоса пропускания), по сравнению с Motion-JPEG в 2.5 – 7 раз. Однако это достигается за счет более сложных алгоритмов кодирования/декодирования, требующих большего времени на обработку видео, что приводит к значительным задержкам (до 3-4 секунд) между реальным событием и отображением его на экране.
     Следует иметь в виду, что стандарты MPEG-2 и MPEG-4 является лицензируемыми. При их использовании необходимо приобретать лицензии на их использование. Для российского рынка это в теории.