ТЕОРИЯ цифровой обработки видеоизображения |
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Сегодня словами "видеообработка" и "цифровое видео" уже никого не удивишь. За последнее десятилетие устройства обработки видеосигналов прошли огромный путь развития, появилось множество специальных терминов и способов обработки видеоизображения. Мы попытаемся рассказать о некоторых устройствах и методах обработки видеосигналов. Все устройства обработки видеосигналов (УОВ) можно разделить на несколько категорий:
Следует отметить, что большинство вышеперечисленных устройств используют цифровую обработку сигналов, которая либо имеет ряд преимуществ, либо является единственно возможной. Цифровая техника достаточно специфична, поведение интеллектуальных машин иногда противоречит повседневному опыту человека и трудно воспринимается. Специальное образование, вскрывающее подноготную цифровых процессов, снимает такие трудности. Однако
приходится считаться с тем, что подавляющее большинство работников
вещательных организаций и компаний, а тем более представителей частных и
домашних видеостудий не знакомы с математической логикой, теорией и
физикой цифровых процессов обработки многомерных массивов данных и другими
премудростями соответствующих научных дисциплин и, вероятнее всего,
никогда не познакомятся. Все что им надо - это адаптированное изложение
основ и особенностей поведения цифровых систем. Специальной литературы
этого рода у нас нет, но необходимость в ней - огромная. Мы попытаемся в
этом материале дать эти основы, которые необходимы для правильного выбора
специальных устройств обработки видеосигналов, что в конечном результате
отражается на эффективности работы, получении оптимальных результатов и
экономии средств. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Любой отснятый видеоматериал перед тем как подать в эфир, записать в чистовую видеоролик или видеофильм надо смонтировать, т. е. убрать "лишние" видеосюжеты, состыковать отдельные кусочки видеоматериала, выполнить между ними переходы, добавить спецэффекты и титры. Это и призваны сделать те устройства, о которых мы будем рассказывать. Существует три вида видеомонтажа: линейный, нелинейный и гибридный.
Теперь
расскажем о том, как устроен видеосигнал, в каком виде видеоизображение
передается между различными устройствами обработки видеосигналов. Эти
знания необходимы для правильного выбора и состыковки устройств,
работающих в различных видеоформатах. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Известно, что человеческий глаз воспринимает как единое целое красную (Red), зеленую (Green) и синюю (Blue) части видимого спектра. Таким образом, цветовое восприятие человека трехкомпонентное. Конечно, мы воспринимаем больше цветовых оттенков - считается, что 16 миллионов - но для нас, в силу особенностей цветового восприятия, все они сводятся к комбинациям этих трех главных цветов (в теории цвета их называют опорными). Исходя из этого, все телевизионные камеры и другие технические датчики цветных изображений формируют три сигнала - R, G, B, а в телевизионных и компьютерных мониторах экран одновременно сканируют три электронных луча, вызывая световые вспышки красного, зеленого и синего цветов. Глаз же при этом воспринимает только результирующее изображение во всем богатстве цветов реального мира. В то же время для телепереноса цветного изображения через эфир технически эффективнее кодировать цвет иным образом. Дело в том, что глаз менее чувствителен к пространственным изменениям оттенков цвета, чем к изменениям яркости. Поэтому цветовая информация может передаваться с меньшей пространственной четкостью (разрешением). В результате исходные RGB-видеосигналы в телевидении перед передачей преобразуют (кодируют) в сигнал яркости Y и два цветоразностных сигнала U и V: Y = 0.299R + 0.587G + 0.114B, U = R - Y, V = B - Y, при этом U и V передаются с разрешением, в два раза меньшим, чем Y. Такое уменьшение объема передаваемой информации позволяет строить более дешевые системы. Выбор вышеуказанных коэффициентов преобразования определяется жестким требованием двусторонней совместимости черно-белых и цветных приемников - яркостной сигнал Y совпадает с формируемым в ч/б системах, ч/б приемники воспринимают только его. Что касается цветовых сигналов U и V, то они добавляются к яркостному сигналу путем модуляции специального гармонического сигнала (цветовой поднесущей) на частоте, лежащей в пределах спектра сигнала Y. В результате полосы яркостного сигнала и полного видеосигнала совпадают. Модуляция поднесущей может осуществляться по амплитуде, фазе или частоте согласно U- и V- значениям. При приеме для точного определения величин модуляции необходима привязка к опорной несущей. Для этого в начале каждой строки передаются пакеты немодулированной несущей - так называемые синхроимпульсы. Таким образом телевизионный видеосигнал, с определенными оговорками, представляет собой композицию трех сигналов Y, U, V и синхроимпульсов. Такой сигнал называют композитным. При приеме в цветном телевизоре осуществляется обратный процесс восстановления (декодирования): R = Y + U, B = Y + V, G = Y - 0.509U - 0.194V Телевизионное изображение воспроизводится путем последовательного сканирования электронными лучами по покрытому электролюминисцирующим веществом экрану. Сканирование происходит слева направо вдоль горизонтальных линий (телевизионных строк) и сверху вниз по строкам. Лучи пробегают строку за строкой сверху вниз до самого низа экрана, а затем возвращаются назад, и опять - слева-направо сверху-вниз. За счет инерционности глаза в процессе подобного сканирования вызываемые цветовые вспышки света сливаются в линии, а затем в полное изображение. В результате полный телевизионный кадр представляет собой совокупность последовательно высвечиваемых линий, передающих пространственное распределение изображения. Установлено, что для восприятия человеческим глазом этой совокупности как целого она должна обновляться не реже 50 раз каждую секунду. В телевидении был реализован чересстрочный режим развертки, при котором за каждый проход луч пробегает только половину линий - сначала четные, затем - нечетные. Таким образом, каждый телевизионный кадр оказывается разделенным на два полукадра - их называют полями. В результате, когда мы говорим о вертикальной частоте в 50 Гц, кадровая оказывается в два раза меньше - 25 Гц. В настоящее время в эксплуатации находятся три совместимых системы цветного телевидения - NTSC, PAL, SECAM. Основные различия между ними заключаются в конкретных методах кодирования телевизионного сигнала (см. таблицу).
Кратко остановимся на особенностях этих систем, рассматривая их в хронологическом порядке.
Таковы общие принципы кодирования цвета в различных видеосистемах телевидения. Но этим многообразие стандартов не ограничивается. Дело в том, что для формирования полного телевизионного сигнала к видео необходимо добавить звук, а полученный так называемый низкочастотный телевизионный сигнал передать через эфир путем модуляции гармоники одного из доступных радиоканалов (48,5...66 МГц - первый частотный диапазон, 76...100 МГц - второй частотный диапазон, 174...230 МГц - третий частотный диапазон, 470...790 МГц - четвертый частотный диапазон). И здесь даже в рамках одной системы существуют различия, связанные с конкретной шириной спектра видеосигнала и его разносом со звуковой частью, полярностью амплитудной модуляции радиоканала изображения и типом модуляции радиоканала звука. В таблице представлены основные параметры телевизионных стандартов стран мира.
Нелишне напомнить, что в России принят стандарт SECAM D/K (первая буква относится к диапазону метровых волн, вторая - дециметровых), во Франции - SECAM E/L, Монако - SECAM C/L, Иране - SECAM B, Германии - PAL B/G, Англии - PAL A/I, Бельгии - PAL B/H, Бразилии - PAL M/M, Китае - PAL D/K, в США, Японии и Тайване - NTSC M/M. В заключении отметим, что французский и российский SECAM существенно отличаются в модуляции несущего радиосигнала - как по видео, так и по звуку. А на уровне низкочастотных сигналов отличий нет. Основное отличие между SECAM B/G и D/K - в частоте разноса звука от видео. В то же время с точки зрения модуляции радиосигналов отличий между PAL D/K и SECAM D/K нет. Это позволяет использовать телевизионный тюнер, настроенный на PAL D/K, для выделения нашего SECAM из высокочастотного сигнала. Очевидно, что полученный при этом низкочастотный сигнал все же необходимо подавать именно на SECAM-декодер. А здесь можно найти более подробную информацию о телевизионных стандартах | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Как уже отмечалось, низкочастотный телевизионный видеосигнал является композитным, т.е. представляет собой результат сложения яркостного сигнала Y, двух цветовых поднесущих, модулированных сигналами цветности U и V, а также синхроимпульсов, причем частоты цветоразностных сигналов лежат в пределах полосы спектра яркостного сигнала. Но из-за строчной структуры телевизионного разложения в спектральной области все они имеют гребенчатую структуру, расcтояния между соответствующими пиками которых равны строчной частоте. При этом частоты поднесущих выбраны так, чтобы спектральные пики сигналов цветности оказались между пиками яркостного сигнала. В результате путем использования специальных гребенчатых фильтров возможно эффективное разделение этих сигналов. Однако, подобные фильтры весьма сложны и дороги, а потому в основном используются в профессиональной аппаратуре высокого разрешения. В бытовых устройствах ограничиваются более простыми полосовыми фильтрами, заметно снижающими четкость изображений. Так в видеомагнитофонах и камерах классов VHS (Video Home System) и Video-8 используются только композитные видеосигналы, при этом разрешение ограничено 240 телевизионными линиями. Кроме того, даже полное использование всех различий сигналов все равно не позволяет идеально разделить их. Поэтому более эффективным оказывается использование не единого композитного сигнала, а двух композитных сигналов Y/C: Y, как и ранее, несет яркостный сигнал и синхроимпульсы, а C (Chrominance) - модулированные цветовые сигналы. Такой сигнал называют S-Video, он используется при записи/воспроизведении в аппаратуре классов S-VHS и Hi-8. Считается, что при этом обеспечивается разрешение в 400 линий. Следующим шагом к повышению качества является переход к компонентному сигналу YUV. Он используется в профессиональной аппаратуре класса Betacam и связан с поддержкой разрешения до 500 линий. И, наконец, последним в этой череде является RGB-представление: при этом отсутствуют какие-либо кодирование и модуляция, наиболее простая и точная передача сигнала. Однако, в силу вышеуказанных особенностей зрительного восприятия человека достигаемое здесь повышение качества уже становится визуально несущественным. Поэтому, подобное представление реально используется только в высокоточной научной измерительной аппаратуре. За последние несколько лет появилось большое число различных цифровых форматов представления видеосигнала. Аппаратура, работающая в этих форматах выпускается рядом фирм - законодателей мод в видеотехнике, такими как Sony, Panasonic, JVC и т. д. Такая аппаратура стала появляться и на нашем рынке, хотя пока она слишком дорога для "российского" уровня, особенно для бытового. Приведем сводную таблицу существующих форматов, в том числе и цифровых, к которым вернемся в дальнейшем. Сравнительные характеристики различных форматов записи на магнитную ленту.
Самым
"непонятный" в этой таблице столбец это "вид сигнала". Что означают
обозначения YUV 4:2:2, YUV 4:1:1 и т. п.? Настало время поговорить о
цифровом представлении телевизионного видеосигнала. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
По своей массе и производственным мощностям аналоговая вещательная аппаратура все еще преобладает, но очень быстро сдает одну позицию за другой. Как и ожидалось, переход к цифровым вещательным комплексам осуществляется, главным образом, за счет поэтапного встраивания цифрового оборудования в аналоговое окружение. Процесс этот идет повсеместно, но в разных странах темпы перехода различны. В наиболее развитых странах уже сейчас можно говорить о преобладании цифровой аппаратуры, в некоторых она просто отсутствует. Россию в этом плане, пожалуй, следует отнести к слаборазвитым странам. Бурному внедрению цифровых технологий в наше вещание, естественно, препятствует отсутствие необходимых средств у большинства телевизионных и радиовещательных компаний страны. Тем не менее, дело сдвинуто с мертвой точки и идет с впечатляющим ускорением. Что предлагают цифровые технологии на разных стадиях подготовки и распространения вещательных программ, как влияют на художественные возможности, о чем следует помнить, работая с цифровой аппаратурой, и чего надо опасаться, особенно в системах с компрессией сигналов - ответы на все эти вопросы следует знать всем работникам вещательных организаций - инженерно-техническому персоналу и творческим работникам. Цифровая техника стала постепенно проникать в телевидение в семидесятые годы. Первыми появились цифровые корректоры временных искажений, затем - кадровые синхронизаторы, генераторы специальных эффектов, микшеры, коммутаторы. Но говорить о возможности полномасштабного перехода к цифровому телевидению стали десять лет назад, когда появился первый промышленный цифровой видеомагнитофон, разработанный фирмой Sony. Это - выдающееся событие для телевидения. Прежде всего надо отметить, что параметры, характеризующие качество воспроизводимого изображения и звука в цифровом аппарате, превосходили те значения, которые были типичными для аналоговых магнитофонов. Но появление цифровой видеозаписи означало не просто значительное улучшение параметров. Эффект накопления искажений, присущий всем аналоговым системам, например, ограничивает предельно допустимое число перезаписей, которые могут быть сделаны на аналоговом магнитофоне. Так, например, перезапись на магнитофонах формата VHS, без потери качества в пределах нормы, не допускается вообще, формат S-VHS допускает 1-2 перезаписи, а Betacam SP три-четыре. А вот цифровые системы практически свободны от эффекта накопления искажений. Если в аналоговом аппарате предельно допустимое число перезаписей исчисляется единицами, то в цифровом видеомагнитофоне визуальное качество изображения не изменяется после десятков перезаписей. А это уже не просто количественное улучшение. Можно сказать, что предельно допустимое количество перезаписей уже практически не ограничивает возможности создателей телевизионных программ. Десятилетия основным носителем в системах видеозаписи была магнитная лента. Но сейчас запись на диск завоевывает свое место в видеотехнике. Дисковые системы дороже ленточных и имеют меньшую емкость, но они обладают весьма важным преимуществом - практически мгновенным (в сравнении с ленточными системами) доступом к любому фрагменту записи. Это создает новые возможности для компоновки и монтажа. Таким образом, появление цифровой видеозаписи ознаменовало начало кардинальных изменений в технологии производства телевизионных программ. Но цифровая техника порождает и проблемы. Полоса частот цифровых сигналов значительно шире полосы их аналоговых предшественников. Например, полоса частот, занимаемая телевизионным видеосигналом в цифровой форме, составляет сотни мегагерц. Так, при передаче телевизионного сигнала в цифровой форме требуются каналы связи с пропускной способностью до сотен мегабит в секунду. Использование каналов, не вносящих ошибки в цифровой поток и обладающих столь большой пропускной способностью, может оказаться невозможным или экономически невыгодным. При плотностях записи информации, которые приходится использовать, например, в цифровых видеомагнитофонах, чтобы добиться расхода ленты, сравнимого с расходом в аналоговых аппаратах, ошибки при воспроизведении просто неизбежны. Поэтому сам факт преобразования аналоговых сигналов в цифровую форму и использование двоичных сигналов в качестве носителя информации еще не гарантирует высокого качества. Принципиальный
способ решения проблем передачи и записи с высокой степенью
помехозащищенности был обоснован Шенноном. Он заключается в кодировании
сигнала. К системам кодирования в цифровой видеотехнике предъявляются
весьма многочисленные и часто противоречивые требования. Поэтому на
практике кодирование всегда выполняется в несколько приемов. Сейчас
принято выделять следующие основные виды: кодирования источника информации
с целью преобразования сигнала в цифровую форму и его экономное
представление путем сжатия или, как часто говорят, компрессии; кодирования
с целью обнаружения и исправления ошибок; канального кодирования с целью
согласования параметров цифрового сигнала со свойствами канала связи и
обеспечения самосинхронизации. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Для преобразования любого аналогового сигнала (звука, изображения) в цифровую форму необходимо выполнить три основные операции: дискретизацию, квантование и кодирование.
Операции, связанные с преобразованием аналогового сигнала в цифровую форму (дискретизация, квантование и кодирование), выполняются одним устройством - аналого-цифровым преобразователем (АЦП). Сейчас АЦП может быть просто интегральной микросхемой. Обратная процедура, т.е. восстановление аналогового сигнала из последовательности кодовых слов, производится в цифро-аналоговом преобразователе (ЦАП). Сейчас существуют технические возможности для реализации всех обработок сигналов звука и изображения, включая запись и излучение в эфир, в цифровой форме. Однако в качестве датчиков сигнала (например, микрофон, передающая ТВ трубка или прибор с зарядовой связью) и устройств воспроизведения звука и изображения (например, громкоговоритель, кинескоп) пока используются аналоговые устройства. Поэтому аналого-цифровые и цифро-аналоговые преобразователи являются неотъемлемой частью цифровых систем. Цифровые
сигналы можно описывать с помощью параметров, типичных для аналоговой
техники, например таких, как полоса частот. Но их применимость в цифровой
технике является ограниченной. Важным показателем, характеризующим
цифровой поток, является скорость передачи данных. Если длина слова равна
n, а частота дискретизации FD, то скорость передачи данных, выраженная в
числе двоичных символов в единицу времени (бит/с), находится как
произведение длины слова на частоту дискретизации: C = nFD .
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Компонентный телевизионный видеосигнал может быть представлен в цифровой форме в соответствии с Рекомендацией ITU-R 601. Эта рекомендация устанавливает правила раздельной дискретизации, квантования и кодирования сигнала яркости Y и двух цветоразностных сигналов R-Y (Cr) и B-Y (Cb). Частота дискретизации для яркостного сигнала Y установлена равной 13,5 МГц, для цветоразностных сигналов - 6,75 МГц, т.е. частота дискретизации яркостного сигнала в 2 раза больше частоты дискретизации цветоразностных сигналов. Если взять, как принято, в качестве условной (базовой для иерархии цифровых стандартов) единицы частоту 3,375 МГц, то частоты дискретизации яркостного и двух цветоразностных сигналов будут находиться в соотношении 4:2:2, которое и дает часто используемое название стандарта. При таких значениях частот дискретизации можно практически преобразовать без искажений в цифровую форму сигнал яркости в полосе до 5,75 МГц, а цветоразностные сигналы - в полосе до 2,75 МГц (надо помнить о запасном интервале между граничной частотой сигнала и половиной частоты дискретизации). Стандарт 4:2:2 используется в качестве базового при оценке других вариантов дискретизации, и на значение 5,75 МГц часто ссылаются как на границу полной полосы ТВ сигнала. Рис. 7 показывает дискретизацию компонентного телевизионного сигнала на примере сигнала цветных полос. Длина кодового слова - 10 двоичных разрядов - битов (в первоначальном варианте - 8 битов), что позволяет перенумеровать 1024 уровня квантования. Однако числа 0..3 и 1020..1023 резервируются для цифровых синхронизирующих сигналов. Для квантования яркостного сигнала выделяется 877 уровней (значение черного в видеосигнале соответствует уровню квантования 64, а номинальное значение белого - уровню 940). Для квантования цветоразностных сигналов выделяется 897 уровней, причем нулевому значению аналогового сигнала соответствует уровень квантования 512.Кодированию подлежат гамма-корректированные сигналы. Приведенные диапазоны уровней квантования часто используются при сравнении с другими вариантами квантования. В этом случае на них часто ссылаются как на показатели динамического диапазона или полного разрешения по уровню сигнала, поскольку число уровней квантования определяет шум квантования и, соответственно, динамический диапазон. В этом же смысле иногда говорят о 10-битном разрешении. Частоты дискретизации представляют гармоники строчной частоты, что обеспечивает неподвижную ортогональную структуру отсчетов ТВ изображения (рис. 8). Величинам 13,5 и 6,75 МГц кратна, как частота строчной развертки стандарта телевизионного разложения 625/50, так и частота развертки стандарта 525/60. Собственно, выбор в качестве базовой именно частоты 3,375 МГц во многом связан с соображениями кратности с частотами строчной развертки двух мировых стандартов разложения. Это важно потому, что позволило ввести единый мировой стандарт цифрового кодирования компонентного видеосигнала, при котором в активной части строки содержится 720 отсчетов яркостного сигнала и по 360 - каждого цветоразностного. Различие в системах 625/50 и 525/60 заключается в разном числе строк и несколько отличающейся длительности интервала гашения. Полная скорость передачи цифрового компонентного видеосигнала составляет 10 х 13,5 + 10 х 6,75 + 10 х 6,75 = 270 Мбит/с. Существуют и другие форматы представления компонентного сигнала в цифровом виде. Кодирование по стандарту 4:4:4 предполагает использование частоты 13,5 МГц для всех трех компонентов: R, G, B или Y, Cr, Cb (рис. 9). Это означает, что все компоненты передаются в полной полосе. Для каждого компонента в активной части кадра оцифровывается 576 строк по 720 элементов. Скорость цифрового потока при 10-битовом слове составляет 405 Мбит/с. Формат 4:4:4:4 описывает кодирование четырех сигналов (рис.10), три из которых являются компонентами видеосигнала (R, G, B или Y, Cr, Cb), а четвертый (альфа-канал) несет информацию об обработке сигнала, например, о прозрачности изображения переднего плана при наложении нескольких изображений. Дополнительным четвертым сигналом может также быть сигнал яркости Y в дополнении к сигналам основных цветов R, G, B. Частота дискретизации всех сигналов - 13,5 МГц, т.е. все сигналы передаются в полной полосе. Скорость передачи данных при 10 битах на слово равна 540 Мбит/с. Формат 4:1:1 предлагает двукратное уменьшение частоты дискретизации цветоразностных сигналов (в сравнении со стандартом 4:2:2). Яркостной сигнал Y дискретизируется с частотой 13,5 Мгц, а цветоразностные (Cr и Cb) - 3,375 Мгц. Это означает и двукратное уменьшение горизонтального разрешения в цвете. В активной части кадра 576 строк, каждая из которых содержит 720 элементов сигнала яркости и по 180 - цветоразностных сигналов (рис. 11).Формат 4:2:0 предлагает изображение, в котором яркостная компонента Y содержит в активной части кадра 576 строк по 720 отсчетов, а цветоразностные компоненты Cr и Cb - 288 строк по 360 отсчетов (рис. 12). Варианты кодирования 4:1:1 и 4:2:0 характеризуются одинаковой скоростью передачи данных - 202,5 Мбит/с для длины кодового слова в 10 бит и 162 Мбит/с - для 8 бит на слово. Если передавать только активную часть изображения (без обратного хода), то величина цифрового потока при 8 битах на слово составит 124 Мбит/с. Цифровые сигналы этих двух форматов могут быть получены из сигналов стандарта 4:2:2 путем предварительной обработки и децимации (прореживания отсчетов) с целью сокращения скорости потока. Формат 4:1:1 оказывается более удобным для систем со стандартом разложения 525/60, а формат 4:2:0 - для систем 625/50. Это связано с тем, что потеря вертикальной четкости более заметна в системе с меньшим числом строк (525/60), а потеря горизонтальной четкости более заметна в системе 625/50.
Находит применение формат 3:1:1, в котором уменьшено (в сравнении с 4:2:2) горизонтальное разрешение и для яркостной компоненты (с 720 до 540), и для цветоразностных (с 360 до 180). Активная часть кадра содержит 576 строк с 540 отсчетами яркостной компоненты и 180 отсчетами для цветоразностных (рис. 13). Скорость передачи данных формата 3:1:1 составляет 135 Мбит/с при 8 битах на один отсчет. Для значительного сокращения скорости потока (например, в CD-ROM приложениях) разрешение яркостной компоненты снижается примерно в 2 раза по вертикали и по горизонтали, а цветоразностных - в 4 раза по вертикали и в 2 раза по горизонтали (в сравнении со стандартом 4:2:2). Такой вид представления описывается форматом CIF (Common Interchange
Format). Один кадр этого формата содержит в активной части 288 строк по
352 отсчета для яркостной компоненты и 144 строки по 176 отсчетов для
цветоразностных компонент (рис. 14). При передаче только активной части
изображения скорость потока составляет около 30 Мбит/с при 8 битах на
отсчет. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Композитный сигнал по системам PAL и NTSC дискретизируется с частотой 4fsc, равной четвертой гармонике цветовой поднесущей. Рис. 15 иллюстрирует дискретизацию и квантование композитного телевизионного видеосигнала (в качестве сигнала показан сигнал цветных полос). В системе NTSC строка содержит 910 отсчетов, из которых 768 образуют активную часть цифровой строки. В системе PAL на интервал аналоговой строки приходится нецелое число отсчетов с частотой 4fsc. Это обусловлено тем, что в системе PAL помимо четвертьстрочного сдвига используется дополнительный сдвиг частоты поднесущей на частоту кадров (25 Гц). Для сохранения непрерывного цифрового потока отсчетов, следующих с
постоянной частотой 4fsc, в системе PAL длительность цифровой строки
принята не равной длительности аналоговой строки. Все строки поля (за
исключением двух) содержат по 1135 отсчетов, а две - по 1137.Длина
кодового слова - 10 бит (в первоначальном варианте - 8). Необходимость
цифрового кодирования фронта и среза синхроимпульсов композитного
аналогового сигнала приводит к тому, что для диапазона от номинальной
величины черного до номинального белого выделяется примерно на 30% меньше
уровней квантования, чем для сигнала в компонентной форме. Скорость
передачи данных для цифрового сигнала в системе NTSC составляет 143
Мбит/с, а в системе PAL - 177 Мбит/с. Несколько слов надо сказать о
цифровом представлении звукового сигнала, так как многие цифровые
устройства обработки видеосигналов имеют и звуковую часть, необходимую для
синхронной обработки звука и изображения. Особенно это относится к
нелинейным видеомонтажным платам и системам. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Для передачи звукового сопровождения в телевидении применяются цифровые сигналы стандарта AES/EBU. В соответствии с этим стандартом при аналого-цифровом преобразовании звука используется импульсно-кодовая модуляция с линейной шкалой квантования, причем на один отсчет для собственно звуковых данных отводится до 24 бит (рис. 16). Форма представления кодовых слов - последовательная. К каждому слову звуковых данных добавляются биты корректности отсчета V, состояния канала C, данных пользователя U. Эта группа из 27 бит, дополненная битом четного паритета P и синхрословом из 4 бит, образует субкадр из 32 бит. Стандарт поддерживает два звуковых сигнала (например, 2 моно или 1
стерео канал), из отсчетов которых формируется кадр. 192 последовательных
кадра объединяются в блок данных. Объединение в блок значимо лишь
постольку, поскольку в пределах блока с помощью битов C передается
информация, например, о характере сигнала (моно или стерео), о внесенных
предискажениях. В пределах блока группируется и информация пользователя.
Стандарт AES/EBU допускает ряд частот дискретизации, из которых наиболее
удобной для телевидения является частота 48 кГц, при которой длительность
блока составляет 4 мс. При этом устанавливается простое соотношение между
частотой дискретизации звука и частотой видеокадров, что упрощает
синхронизацию и передачу цифровых сигналов видео и звука по одной линии
связи. Скорость передачи звуковых данных при частоте 48 кГц составляет
3,072 Мбит/с. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Мы "перевели" аналоговый видеосигнал в цифровой вид. А что дальше? Как, например, смикшировать два видеоизображения? Скажем честно, в аналоговом виде, имея два асинхронных видеоисточника это сделать невозможно. Переведенный в цифровой вид видеосигнал должен пройти через кадровый синхронизатор, который "привязывает" по времени один видеосигнал к другому. По сути дела кадровый синхронизатор представляет собой буфер специальной видеопамяти, обычно на один кадр. Специальная арбитражная логика позволяет через независимые шины данных одновременно и асинхронно записывать и считывать из него видеоинформацию. Скорость считывания может задаваться синхросигналами, выделенными из другого видеосигнала. Следовательно, выходной поток информации видеобуфера будет синхронным с видеоинформацией второго видеоисточника. Пример построения кадрового синхронизатора приведен на рис. 17. К сожалению, видеосигнал, выдаваемый аналоговыми видеоисточниками, особенно формата VHS и Video-8 не является стабильным. Длительность строки может изменяться на несколько микросекунд, тогда как для качественной и стабильной видеокартинки требуется высокая стабильность временной базы. Специальные сигнал генераторы могут выдавать временной интервал с точностью до 2 nS. Теперь представим, что в качестве второго видеоисточника в описанном выше кадровом синхронизаторе мы будем использовать этот стабильный генератор временной базы. При этом видеоинформация будет выводиться "привязанной" к стабильной временной базе независимо от "флуктуаций" входного видеосигнала. Такие устройства называются корректорами временных искажений (time base corrector). Иногда в целях упрощения временной корректировке подвергается только строчная информация, т. е. восстановление сигнала происходит по сигналу предыдущей строки. При оцифровке нестабильного видеосигнала и "привязке" его к стабильной временной базе существует масса "подводных камней", например, если оцифровывать видеосигнал стабильной частотой дискретизации, то в разных строках будет разное число пикселей и встает вопрос что делать с "лишней" и где взять "недостающую" информацию. Разные фирмы решают этот вопрос по-разному, используя различные "фирменные" алгоритмы обработки сигналов. В простейшем случае "лишняя" информация просто отбрасывается с последующей фильтрацией нелинейных искажений. Этот фильтр может быть довольно сложным. Например, модно использовать адаптивный рекурсивный цифровой фильтр для устранения шумов из "зашумленной" видеокартинки. Еще
одна функция time-base корректора - это транскодирование и цветокоррекция
видеоинформации. Используюя на входе аналоговый или цифровой
мультистандартный декодер, а на выходе аналогичный кодер, можно
преобразовывать сигналы из одной системы кодирования цвета в другую
(например, PAL в SECAM или NTSC и наоборот). Также при наличии в time-base
корректоре кадрового синхронизатора возможны некоторые спецэффекты,
например, стоп-кадр ("заморозка" картинки), стробоскоп, мозаика,
смазывание и т. д. | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Начав говорить о синхронизации, мы уже рассказали о двух устройствах, которые выполняются в виде отдельных блоков - кадровом синхронизаторе и time-base корректоре. Еще одним специализированным функционально законченным устройством является синхронный видеокоммутатор. По сути дела это вышеописанный кадровый синхронизатор со специальной кросс-коммутационной матрицей и буферными видеоусилителями. Видеокоммутатор позволяет коммутировать m входов на n выходов, обычно так и обозначается коммутатор 4х2, 8х4, 16х2 и т. п. Синхронная коммутация видеосигналов очень важна при монтаже и особенно в условиях "живого" эфира при коммутации, например, транслирующих видеокамер. Некомпетентные люди пытаются использовать для этих целей несинхронные дешевые коммутаторы или монтажные видеомикшеры с ведущим несинхронным каналом, искренне при этом удивляясь почему у них в момент коммутации происходит срыв изображения. Надо
заметить, что практически все устройства обработки видеосигналов имеют
стандартизованные интерфейсы управления и возможность синхронизироваться
от внешнего сигнала, что позволяет для повышения стабильности и качества
обработки видеоизображения использовать специальный сверхстабильный
синхрогенератор. Структура видеостудии с отдельными блоками отличается
повышенной мобильностью перекомпоновки и улучшения характеристик при
минимальных последующих затратах, но требуют изначально более весомых
затрат при организации видеостудии. В небольших (а тем более домашних)
видеостудиях почти все функции возлагаются на видеомикшер, обычно
сочетающий в себе вышеописанные устройства и который является "сердцем"
видеостудии. Итак, какие бывают видеомикшеры? | ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Микшеры живого эфира.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Для того чтобы лучше понять преимущества цифровых технологий редактирования и монтажа, активно используемых в настоящее время в производстве видеопродукции, необходимо вернуться на несколько лет назад и рассмотреть старую классическую схему, отточенную практикой предыдущих десятилетий. Базовая монтажная система состояла из двух видеомагнитофонов (Player-Recorder) и управляющего ими монтажного контроллера. При этом собственно процесс монтажа выглядел следующим образом:
Отбираемая пользователем “полезная” видеоинформация (фрагменты A и B) с исходной ленты (источника) на первом магнитофоне (Player) переписывалась на результирующую ленту на втором магнитофоне (Recorder), в то время как неудачная или избыточная информация оставалась на источнике. Получаемая в результате новая запись становилась так называемой Мастер кассетой. При этом для точного позиционирования всех выделяемых видеофрагментов монтажный контроллер использовал специальную числовую информацию (тайм-код), записанную на ленту одновременно (параллельно) с видео (каждый кадр обладает своим уникальным номером). Монтажная система из трех магнитофонов.Если же было необходимо не просто последовательно собрать (стык в стык) отдельные видеофрагменты в единое целое, но построить между ними плавные переходы со шторками и/или реализовать другие эффекты, то требовалась более сложная монтажная схема, основанная на одновременном использовании двух лент (A и B) с исходным материалом и соответственно двух Player. При этом монтажный контроллер, опираясь на информацию о тайм-коде, управлял всеми аппаратами, в том числе и микшером.
Добавляя к этому генератор титров и/или аудио микшер, приходили к необходимости использования следующей т.н. A/B-roll монтажной системы. Отметим, что она включала в себя набор независимых устройств (порой различных производителей), которые для достижения необходимого результата должны были работать абсолютно синхронно, прецизионно точно и в реальном времени.
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Несколько лет назад появилась возможность выполнения видеомонтажа и редактирования “внутри” компьютера. Эта технология получила название нелинейного монтажа, поскольку позволила операторам прямое обращение к необходимым кадрам/фрагментам видео, записанным на жесткий диск компьютера, т.е. позволила избегать утомительного процесса постоянной (линейной) перемотки ленты вперед-назад при просмотре/поиске этих фрагментов. Подчеркнем, что оцифрованные фрагменты видео перед записью на диск подвергаются компрессии (как правило, MJPEG) в 3-10 раз, что неизбежно приводит к определенной потере качества (тем меньшей, чем меньше степень компрессии). Первоначально графический интерфейс подобных систем напоминал панель управления классического контроллера-микшера, а их функциональные возможности повторяли “привычные” оператору функции. Развитие технологии цифрового редактирования наряду с наращиванием производительности персональных компьютеров, в том числе методов компрессии, привело к реальной возможности создания профессиональной по качеству видеопродукции на базе стандартного компьютера. Каковы основные преимущества цифрового нелинейного монтажа? Прежде всего, это сохранение исходного уровня качества записанных на диск фрагментов при их копировании (вне зависимости от числа копий). Во-вторых, это компактность. Нелинейная видеостудия фактически представляет собой компьютер, специально сконфигурированный для этих целей, и, оснащенный специальной системой нелинейного видеомонтажа и соответствующим программным обеспечением. При этом отпадает необходимость в монтажном и микшерном видеопульте, линейки из двух и более видеомагнитофонов , титровальном генераторе и т. д. Для записи готового смонтированного видеоматериала фактически необходим лишь один видеомагнитофон соответствующего формата . В третьих, это большая гибкость и высокое качество . Возможности по обработке и монтажу видеоматериала определяются лишь возможностями используемого компьютера и программного обеспечения и могут оперативно изменяться и наращиваться. Кроме того, при оснащении соответствующим оборудованием и программным обеспечением, можно превратить эту систему и в профессиональную цифровую аудиостудию для озвучивания изготавливаемых видеороликов и монтажа фонограмм. Кроме того, это:
| ||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Вышеописанные преимущества нелинейных монтажных систем привели к их повсеместному распространению. Однако в первое время они в основном использовались для задач постпроизводства. Дело в том, что стандартная цифровая система, аналогично “базовому” аналоговому монтажному комплексу, построена по однопотоковой архитектуре. Это означает, что при просчете реально задействуется только одна копия исходного видео (AVI-файл). В то же время, если требуется несколько больше, чем просто разрезать/склеить имеющиеся фрагменты, то необходимо сформировать и задействовать вторую копию цифрового видео (по крайней мере, ее части). Т.е. для создания любого микшерского перехода/эффекта между двумя клипами (A и B) в оперативной памяти компьютера необходимо одновременно содержать кадры как заканчивающегося клипа A, так и начинающегося клипа B, последовательно загружая их с жесткого диска, декомпрессируя и производя просчет новых кадров результирующего клипа, затем осуществляя обратную компрессию и запись на диск. Этот процесс, нередко называемый рендерингом (rendering), иллюстрируется следующей схемой:
Подобные вычисления требуют совершения миллиардов специализированных операций над пикселями изображений. Очевидно, что скорость их выполнения существенно зависит от быстродействия процессора. Стандартные PC являются универсальными машинами, т.е. оказываются сравнительно медленными с точки зрения решения данной задачи. Например, Pentium 150Mhz может выполнять только около 50 миллионов операций в секунду, распределяя их между различными задачами. В результате при просчете даже сравнительно простых эффектов и переходов требуется в десятки раз больше времени (а порой и в сотни раз - зависит от сложности эффекта), чем собственно время их проигрывания. Нередки ситуации, когда оператор, задав на первый взгляд правильные параметры перехода, вынужден подолгу ожидать окончания процесса его просчета, чтобы потом отвергнуть полученный результат и повторить весь цикл заново с новыми параметрами. Очевидно, что предметом мечтаний является выполнение цифрового монтажа без значительных затрат времени на просчет. В идеале - в реальном времени, когда результат можно сразу видеть на экране контрольного монитора и/или записать на мастер-ленту. Это позволило бы использовать нелинейные монтажные системы не только в пост -, но и в оперативном (on-line) производстве.
Современные платы нелинейного монтажа (например, miroVideo DC30plus для PC или VlabMotion для Amiga) для операций компрессии и декомпрессии видео эффективно задействуют установленные на них микросхемы, что, безусловно, ускоряет рендеринг, но не приводит к его выполнению в реальном времени. Для достижения последнего необходимо использование специализированного вычислительного устройства, “заточенного” на просчет определенного класса эффектов и переходов (таких как, Pinnacle Systems Genie – для трехмерных эффектов). Забегая вперед, отметим, что поскольку набор аппаратно выполняемых эффектов фиксирован для каждого устройства и зависит от его специализации и модели, то всегда будут возникать нестандартные задачи, полностью или частично загружающие процессор компьютера. Это тем более верно, что одним из преимуществ цифрового редактирования видео является возможность почти неограниченного творческого самовыражения, реализации оригинальных идей и создания сколь угодно сложных и неповторимых эффектов. Однако даже наличие подобного специализированного устройства само по себе не решает проблему рендеринга – на его вход необходимо одновременно подавать два потока декомпрессированного видео. К счастью, общий уровень развития компьютерной техники, достигнутый за последние годы, позволяет и эту сложную задачу эффективно решать на базе стандартного РС – при определенной оптимизации его дисковой подсистемы. Таким образом, системы нелинейного монтажа реального времени используют двухпотоковую плату компрессии/декомпрессии видео и дополнительную плату собственно цифровых эффектов. Впрочем, набор микросхем для выполнения в реальном времени заданных эффектов микширования может быть установлен и прямо на плате компрессии (например, как у Pinnacle Systems ReelTime – более 130 двумерных эффектов выполняется в реальном времени). И даже при этом может быть использована дополнительная плата, расширяющая набор аппаратно выполняемых эффектов (например, Pinnacle Systems ReelTime NITRO = ReelTime + Genie). Оперируя с двумя потоками, подобные цифровые системы могут выполнять в реальном времени и другие необходимые функции, присущие классическим монтажно-микшерским аналоговым комплексам, например, титрование (titling) или различные виды рир-проекций (“keying”, “ключевание”, проекции с использованием эффектов прозрачности). Двухпотоковый процесс монтажа выглядит следующим образом:
Резюмируя, повторим основные преимущества такого подхода:
|
Дата последнего обновления этой страницы: 17/01/2002 16:48 |