在线视频技术精要

978-7-115-52307-5
作者: 晓成
译者:
编辑: 任芮池

图书目录:

详情

在线视频技术可以算作较为专业的领域,本书重在给出技术的线索、问题背景、认知脉络以及技术之间的联系,而非描述每一技术的细节,旨在帮助视频公司的技术人员构建包括音视频技术和各类通用技术在内的,较为完整的技术图景。 本书前半部分着重介绍在线视频行业的基础——音视频技术,从行业的历史、文件格式、标准组织开始,依次介绍了音视频技术的框架、编码、流媒体、播放等知识,并讨论了最近几年一流视频公司所关注的许多前沿技术。后半部分逐一谈及技术体系中的其他重要环节和它们在视频服务中的应用,包括服务与数据、算法、推荐与广告、整体架构,乃至技术团队建设等话题。 本书适合已具备基本研发技能的工程师、项目经理等读者阅读。希望通过本书可以帮助读者快速建立在线视频领域内所需的知识体系,进一步拓展眼界,上升到新的高度。

图书摘要



在线视频技术精要


晓成 著




人民邮电出版社

北京

图书在版编目(CIP)数据

在线视频技术精要/ 晓成 著. --北京:人民邮电出版社,2020.1

ISBN 978-7-115-52307-5

Ⅰ.①在… Ⅱ.①晓… Ⅲ.①视频系统 Ⅳ.①TN94

中国版本图书馆CIP数据核字(2019)第225777号

◆著     晓成

责任编辑 任芮池

责任印制 马振武

◆人民邮电出版社出版发行 北京市丰台区成寿寺路11号

邮编 100164  电子邮件 315@ptpress.com.cn

网址 http://www.ptpress.com.cn

大厂聚鑫印刷有限责任公司印刷

◆ 开本:800×1000 1/16

印张:24.25

字数:515千字  2020年1月第1版

印数:1 – 2 500 册  2020年1月河北第1次印刷

定价:99.00元

读者服务热线:(010)81055410 印装质量热线:(010)81055316

反盗版热线:(010)81055315

广告经营许可证:京崇工商广字第20171047号

内容提要

本书旨在给出在线视频的技术路径、问题背景、认知脉络以及各种技术之间的联系,构建包含音视频技术和各类通用技术在内的较为完整的技术图景,而非描述每一个技术的细节。

本书前半部分着重介绍在线视频行业的基础——音视频技术,从行业的历史、文件格式和标准组织开始,依次介绍了音视频技术的框架、编码、流媒体、播放等知识,并讨论了最近几年一流视频公司所关注的许多前沿技术。后半部分逐一谈及技术体系中的其他重要环节和它们在视频服务中的应用,包括服务与数据、算法、推荐与广告、整体架构,乃至技术团队建设等话题。

本书适合已具备基本研发技能的大学生、工程师、项目经理等读者阅读。希望通过本书,读者可以快速建立在线视频领域内所需的知识体系,进一步拓展眼界。

推荐序

春节长假我读了晓成《在线视频技术精要》的书稿,受益匪浅。虽然我在线视频领域工作了4年,但是平时接触的只是本公司的技术,我原本不是这方面的专家。晓成这本书从音视频技术框架,到编码标准,到流媒体传输与播放,到视频技术的前沿发展和AI的结合,到视频公司的技术体系和方案,给了我一个在线视频技术的全景图。

在线视频,包括长视频和短视频行业、点播和直播,也包括视频方式的游戏、广告、监控等,是近几年来在互联网行业当中发展最快的领域。仅在国内,自2013年以来,每年视频市场的收入同比增长都超过50%,已经成为数百亿元的大产业。2018年国内用户数目超过6亿,在视频上所花的时间,也成为仅次于即时通信的第二大行业。全世界的互联网带宽,有百分之八十以上用于视频传输,可以说,在线视频的发展带动了近几年整个互联网技术的发展。

晓成是Hulu北京的资深软件架构师。他从2005年左右就开始从事视频领域相关工作。来Hulu之前,晓成曾经服务于多个跨国企业,也服务过国内创业型公司。他在以上公司的工作重心全部是视频相关技术。这些年他一直同时关注着国内和国外的视频行业,对国内外视频行业的共同趋势以及差异化发展有着深刻的见解。

来Hulu之后,同事们对晓成的评价是“什么技术都懂”,还有“这么用功”!虽然晓成已经有多年管理经验,但是他在我们这里仍选择做架构师,这样他能花更多的时间钻研最新的音视频技术,也能从技术方案层面影响更多的团队。晓成平时常常做技术分享,大多是关于视频前沿技术的解读。所以当他说想把这些年在这个行业的积累写成书时,我觉得这是水到渠成的事。

Hulu北京是“业界大牛”集中之地,这几年已经出版了关于大数据架构、人工智能、机器学习、应用编程框架等多本技术书籍。非常高兴晓成会加入这个行列,成为我们这个小小团体的另一位技术作者。来自一个业界领先的视频公司,本书旁求博考,能让入门者了解这个行业技术之广博,也能让深入的同行思考复杂技术选型的来由和去向。希望这本书会有很大的影响力,帮助推动视频技术的进一步普及和发展!

Hulu公司全球副总裁,北京研发中心总经理

前言

大约在1995年,个人电脑还是较少数人的稀罕玩物,笔者有幸获得一台奔腾电脑,吸引同学少年的,除了游戏,还有可以用电脑来看VCD影碟。当时电脑的计算力尚不足以应付解码任务,需要加装所谓的“解霸卡”才能流畅播放影碟。而在一众碟片中,个人最爱的是施瓦辛格所演的电影《终结者2》,每每遇到朋友小聚,或略有闲暇,总要找出来播放,我们沉浸在电影构造的世界中许久。数年后,碟片损坏,让人颇为不舍。

二十余年过去了,在线视频行业的发展日臻成熟,在网上看电影、电视早已成为人们日常的娱乐选择,不但各种大片、综艺、体育、动漫应有尽有,而且对于偏爱的旧日经典,无论是《终结者》《真实的谎言》这样的电影,还是周星驰的喜剧、成龙的武打,抑或《西游记》《红楼梦》《射雕英雄传》等剧集,都能很容易地找到。回顾往昔,很令人感叹技术进步对生活的馈赠。在这许多年当中,笔者投身软件与互联网行业,机缘巧合下,工作过的多家公司均在视频领域占一席之位,与不同公司的朋友也多有交流,建立友谊,长年的思、见、行,逐渐积累了个人对在线视频相关技术的一些理解和观点,以是不揣浅陋,编汇于此,大约也可算作对自身知识体系的一种总结和梳理。譬如软件开发最终发布,即使最初版本不能尽如人意,反复迭代提升之下,或者得有提高,两相比照,笔者将这本书也看作“初版本发布”,希望以此为基准,未来再有进益。

这本书从在线视频行业着眼,以列举音视频技术为主,辅以数据、推荐、广告、人工智能等多方面相关技术的概述,目标读者既可以是新进入行业、急需获取行业知识的朋友,他们希望快速了解各项技术的基础概念和不同技术之间如何相互影响,发挥作用;还可以是已在行业内耕耘多年、掌握了某一领域知识、意图对行业全貌有所了解的工程师,他们希望构建完整的图景;也可以是已经带队攻坚、掌控公司或部门研发方向的负责人,希望他们提出意见,相互学习。技术之道浩如烟海,笔者逞强着墨,难免错讹,唯有预先祈请读者原谅,若肯与笔者联系,费心指正,则当感激不尽。

本书从构思、落笔到完本共计12个月,后又经数次修订,其间艰难困苦不足为外人道。千言万语唯有化为感谢,感谢越姐帮助联系出版并作序推荐,感谢俞彬和任芮池两位老师的编辑和推广,感谢德良对音视频章节的审阅和意见,感谢在Hulu公司结识并给予启发的小伙伴们,感谢家人的支持和理解。

2019.3

第1章 在线视频行业

什么是在线视频行业?视频技术的历史是什么样子?什么是文件格式和编码格式?何为标准组织?本章试图以列举或纵览的方式,给出个人视角中以上问题的答案,以此作为开篇。

什么是在线视频?概而言之,就是通过互联网,让使用者可以有选择地观看视频内容的服务。

通常服务提供商会依据自身商业模式的不同,提供不同种类的服务,例如点播或者直播。顾名思义,点播就是根据用户请求播放视频内容,用户知道自己想看什么并选择观看;直播则是节目制作方以实时的方式播出,用户有收看权而难有选择权。

在美国,点播领域的重要公司包括YouTube、Netflix、Hulu、Amazon Prime、HBO等;直播领域则涵盖Sling TV、DirecTV Now、Hulu、YouTube在内的大小公司。

在中国,是否拥有对应业务的牌照决定了服务提供商是否能在特定载体和设备上提供服务,较重要的证照包含互联网视听许可证、IPTV牌照、互联网电视牌照等。故而包括爱奇艺、腾讯视频、优酷土豆、小米、暴风、迅雷、乐视、Bilibili、文广、华数、百视通等在内的大量在线视频公司以其战略取向不同、拥有的牌照或牌照合作方不同,在不同领域提供不同形态的视频服务。

根据收入模式的不同,在线视频还可以分为倚仗收费服务的Netflix模式、兼顾收费服务和贴片广告的Hulu模式、专注广告而对用户免费的YouTube模式(YouTube虽然也提供收费视频或频道服务但用户寥寥)等。

对于纯粹的收费会员模式而言,用户注册后每月付给视频网站一定的费用(如Netflix是每月9.99美元、13.99美元和17.99美元),从而自由播放网站任何内容,不需要再观看广告。对于广告与收费兼备的模式,用户在按月缴纳会费后,仍会在观看视频时看到视频开头、中间、结尾插入的视频或交互式广告,这为视频网站带来另一部分收入,但通常为了竞争需要,同等质量服务所需缴纳的会费较无广告收费模式低。针对免费模式,用户不需付费,即可选择网站任意内容观看,但通常需要忍受较长的广告时间。

若根据视频内容划分,则在服务提供商中,既有以用户上传内容为主的YouTube,又有以授权电影电视内容以及自制剧为主的Netflix、Hulu、爱奇艺,以及由于历史原因二者兼备的优酷等公司。YouTube或早期优酷类型网站的成功,仰仗于收集海量用户上传他们制作的视频,而Netflix、Hulu、爱奇艺等公司所依赖的,则是获取数量众多、质量出色的电影电视节目的授权,以及自己投资拍摄的独家内容。此外,还有另外一些公司自身并不提供内容,但通过和其他公司的合作,将多家提供商的内容聚合到一起,供用户搜索和播放,以此按照类似渠道商的方式分成。

在线视频已经极大地影响了用户消费视频内容的方式,很多用户一提到Netflix就想起《纸牌屋》,提到爱奇艺或优酷就想到综艺《中国有嘻哈》或自制网剧《白夜追凶》等,提到腾讯视频就想到NBA,上Hulu看棒球系列赛或世界杯。根据2018年的统计数据,中国网络视频用户的数量已经从2008年的2亿左右提升到现在的6亿左右,这种改变在可预见的未来还将持续下去。

为什么在线视频能够这样迅猛地改变我们的生活呢?

首先,显然是得益于互联网的普及与用户习惯的建立。在美国家庭中,宽带网络的普及非常早,在2005年就已达到6000万人,近年普及率更是达到87%以上。同期,中国互联网用户也从2005年的1.1亿增长至2017年的7.5亿,超过全国总人口的一半。而互联网用户中,使用视频服务的用户比例也在逐年增加,中国的数据是从2008年的68%提升至2017年的77%。互联网浪潮带来的各种便利,在线视频服务均能比较好地享受到,例如联网服务随时随地可以获取,多数内容不论从手机、机顶盒或网页都可以很好地访问,并且不像录像带、VCD、DVD或蓝光等过往的技术那样需要实物载体,服务按照流媒体的方式提供,成本很低。

进一步来说,相比传统的广播电视或碟片租赁,在线视频服务可以灵活地变更服务形式,比如提供不同清晰度的视频、给予不同组合的用户套餐、替换视频内部的广告等;可以让每个用户在不同位置、不同设备上获得无缝衔接的体验;甚至可以根据每个用户的需求、行为习惯提供不同的服务、推荐不同的视频、投放不同的广告。所以,和以往所有人只能选择很少的内容、选择有限的观看方式相比较,在线视频服务的送达率和满意度都有巨大的改善。

此外,在线视频服务借助开发和运营效率的优势,可以根据数据信息的反馈,定制或选购更受用户喜爱的内容,可以更好地构建和使用内容的组合,也可以根据数据的指导,进行细致优化的各环节服务,提升用户观看体验,还可以与其他服务(如社交)、硬件容易地交换数据和结合,形成生态体系,保证用户的黏性。没有形成在线看视频的习惯的人,会尝试接受在线视频;已经形成习惯的人,很少会退到以往的使用习惯上去。所以,在线视频服务的市场如滚雪球一般越滚越大,在不到一代人的时间里,世界就已完全不同。

一份视频在其生命周期内,会历经采集、编码、编辑、存储、转码、传输、播放等不同过程,也是在线视频需要提供的基本能力。在整个过程中,在线视频服务提供商需要获取视频内容,或提供用户自主上传内容的平台,或主动从媒体集团、内容发行商、电影电视工作室乃至自制剧部门等处导入内容,建立内部统一的存储和转码能力,并通过内容分发网络,传送到用户使用的不同浏览器、移动设备或机顶盒设备上播放。

一份视频在其生命周期内,如何引起用户的注意,如何从网站的视频库中发现,如何在播放流程中嵌入合适的、不引起用户过分反感的广告,如何人性化、贴心地提供特殊的功能等,可以算作进阶的问题,在线视频服务需要持续引入和使用较新的技术或渠道解决问题,帮助视频服务提升效率,构建竞争优势。

在以上过程中,较大型的公司可能在所有重要环节都自主开发符合自身需求的软件,包括工具、服务、移动端APP与网站等,也有一些公司会在其中特定环节使用专业技术提供商所开发的工具、服务或SDK。故而在线视频伴生或衍生的产品与服务可以扩展到编码器、服务器厂商、后期制作工作室、在线广告供应商、CDN公司、云计算提供商等多个领域,其中也有各个层面的开源或商用技术。

从Nginx到Wowza Media Server,从Hadoop到AWS,从Freewheel到Nielsen,从数据交换到BI分析,无数的公司、开源社区、高校和标准组织,共同构成了在线视频庞大技术体系的方方面面。本书将力图涉及上述的主要技术领域,给出个人视野中所见的主要知识、各个技术领域之间的联系、一些可行的方案以及关于技术演进的看法。

行业中有另外一些商业形态,例如Spotify、网易云音乐、虾米等类型的在线音乐服务提供商,Snapshot、快手、抖音等类型的短视频服务提供商,虎牙、斗鱼等类型的直播服务提供商,阿里云、Brightcove、七牛等视频云类型的服务提供商等,因为商业模式、服务内容上有相似之处,其技术栈许多环节颇有相似之处,本书应该也可提供一定的参考。

写下本节标题时,颇觉得有些过于宏大,因为视频行业开辟有年,方向众多,源流错综复杂,明星公司各逞一时之豪,关键技术几经换代,时而席卷包举,时而割据偏安,短短数十年,有如朝代兴衰,远非在此短短数页所能尽述。然而目力所及,总觉得有不可磨灭之处,不应完全遮蔽于时间长廊之中,下面或按公司,或按产品,列出个人对当前行业格局仍影响深远的一些内容进行介绍,星星点点,挂一漏万,只期望构建出一幅相对立体的画面,可以起到温故而知新的作用。

在行业生态、产品形态尚未完善的时候,技术是世界变化的主要驱动者,下面谈到的几家公司,都以其技术和相应的产品闻名。

(1)Microsoft

今天的人们虽然仍将微软公司视作行业巨头,但环视四周,Google、Apple、Facebook、Amazon等公司也绝不逊色,甚至还有超出。可若回溯至20世纪90年代的某些时段,微软几乎可以算作唯一的霸主,甚至是整个软件行业的代名词。

从编程语言到操作系统,从公共服务到消费硬件,当时微软公司的野心是将触手涉及软件领域的方方面面。他们意识到多媒体娱乐在人们生活中的地位,从很早就开始全面支持以音视频为核心的多媒体技术。自支持DirectX编程接口的Windows 95开始,微软的思想和产品在视频行业占据了重要的版图。

微软在1996年3月发布了开发者中非常著名的DirectShow(见图1-1),可以看作世界上第一个被广泛应用的音视频框架,它被置入DirectX 5中,并在之后成为Windows 98的标准组成部分,直至现在,仍有大量的多媒体应用程序基于DirectShow编写。在Windows Vista之后的版本,微软另行提供了一套较新的多媒体框架Media Foundation,也赢得了许多用户。从Windows Vista到Windows 8.1,微软还在操作系统内嵌了专为大屏设计的Media Center功能(见图1-2),为用户提供了解决方案。

在近年微软大力发展的云服务Azure中,有非常全面的视频服务解决方案,适合没有太多技术研发能力的在线视频服务提供商集成使用。由于公司过大,并非所有产品或项目都能取得成功,例如其MP3播放器Zune较之苹果的iPod,Sliverlight技术较之Adobe公司的Flash,市场地位都较为边缘化,甚至已经完全消失。

除了以上内容,微软还是DRM方案PlayReady的提供商,提供颇有市场声誉的内容保护方案。

(2)Apple

乔布斯在离开苹果的那些年里,曾经用卖出苹果股份得到的钱收购卢卡斯的电脑动画部,成立了皮克斯(Pixar)动画工作室。在多年艰苦积累后,随着多部动画长片(如Toy Story)的成功,皮克斯动画工作室终以高价被迪士尼收购,这或许能够部分体现他对影音行业发展的向往和远见。

当20世纪90年代后期,乔布斯重新执掌苹果,首先稳定了军心,通过具有透明外壳的iMac扭转了财务报表的亏损,随后带来真正的革命,于2001年发布了划时代的产品iPod。配合2003年上线的iTunes音乐商店(见图1-3),iPod在短短数年之内就重塑了整个音乐产业的业态,最终控制了MP3播放器90%以上的市场,并于后续开启了由iPhone引领的智能手机时代。

实际上,苹果公司在图像和影音处理上的口碑由来已久,即使在“Wintel”联盟风光的时候,也有固定的支持者为了多媒体功能而选择苹果的麦金托什系列电脑。公司早在1991年底就发布了著名的QuickTime第一个版本,支持许多沿用至今的功能,包括专有编码器、多轨道(Track)、可开放扩充的文件格式等,其文件格式后被接受成为MPEG4标准的一部分,即现今最为流行的视频文件格式MP4。

在2007年,苹果发布了移动时代最重要的产品之一——iPhone,让手机成为用户拍照、摄像和音视频观看的一大中心。随着iPhone 3.0在2009年发布,苹果开始推广HLS流媒体协议,利用M3U8格式作为索引、将整个流分成一系列很小的文件供客户端选择下载。凭借协议内容的简单有效、对CDN的友好,以及苹果用户的疯长,HLS协议很快在同时代的流媒体协议中独占鳌头,并直接影响了后来DASH联盟及协议的产生,开启了新的时代。

由于苹果在消费领域举足轻重的地位,在2017年的WWDC开发者大会上,公司宣称将全面支持HEVC和其衍生的图片格式HEIF,很可能将影响未来几年编码和图片格式的格局。除此之外,苹果还是视频流媒体服务潜在的重量级玩家。

(3)RealNetworks

1995年,微软高管Rob Glaser离开公司,创办了Real公司,后改名RealNetworks。它开发了骨灰级网虫耳熟能详的一系列音视频工具(见图1-4),主要包括能播放多种格式文件的播放器RealPlayer、流媒体服务器Real Media Server(其商业版是Helix Server)、编码工具Real Producer(商业版为Helix Producer)等。

与之配套,早期最流行的流媒体控制协议RTSP也是由RealNetworks和哥伦比亚大学合作开发的,公司还借鉴正在标准化过程中的先进编码技术,开发了专有的视频和音频编码格式(RV、RA)与文件容器(RM、RMVB),较当时流行的其他格式有巨大优势。

因为Real的编码技术能有效节约带宽和存储空间,又特别针对网络条件波动的情况进行了许多优化处理,不论在线观看还是下载播放的情况都能给予用户很好的体验,在世纪之交刚刚起步的互联网环境中如鱼得水,赢取了大量用户。

这一弄潮于时代浪尖的公司,巅峰时市值曾达到接近微软市值的一半,掀起了流媒体音乐和视频的风暴。但时势易变,自微软在操作系统中捆绑嵌入Windows Media Player后,需要付费的Real Player等产品的市场占有率就节节败退。虽然Real试图转型为服务类公司,也做了诸多尝试,例如建立起Rhapsody这样的互联网音乐品牌、发起对微软的诉讼(在多年旷日持久的交锋后获胜并获得了可观赔款)、售卖公司在多媒体领域的几百项核心专利和编码器团队换取再投资资金,即使到近年,公司也还有类似Helix Broadcaster这样令人眼前一亮的产品出现,但因整体战略、商业模式和市场策略上表现不佳,都未能挽救颓势。

(4)Adobe

Photoshop曾经是PC时代最为著名的明星软件产品之一,被视为Adobe公司的代表作品,但让它成为消费市场明星的还是其Flash技术。Flash原是Macromedia公司设计的一种二维动画软件,后于2005年公司被Adobe收购,改称Adobe Flash。初始的Flash技术主要用于互联网网页的矢量动画,并使用向量运算的方式产生较小的、采用自己特殊格式SWF的文件,后支持FLV和F4V格式的视频,并设计了广泛使用的流媒体协议RTMP。

为支持整个多媒体生态,Adobe还另有流媒体服务器Adobe Media Server以及编码工具Adobe Flash Encoder,在业界颇有一定的影响力。对标苹果大获成功的HLS协议,Adobe公司还推出了基于HTTP的流媒体协议HDS,即HTTP Dynamic Streaming。在专业图像、视频和音频领域,Adobe也颇有建树,例如提供包含多种音视频工具的Adobe Creative Suite软件集、专业音频编辑和混合软件Adobe Audition、非线性编辑软件Adobe Premiere等。

互联网服务以其便捷的用户体验,独特的商业模式逐渐成为人们生活的重要组成部分,完善的网络环境和用户规模不仅惠及面向消费者的在线视频服务,还让云服务逐渐代替传统的授权软件,涌现出大量不一样的技术服务提供商,以下列出最为著名和有代表性的一些服务提供商。

(1)YouTube

在2005年,Chad Hurley、陈士骏和Jawed Karim等几个PayPal早期工程师一起建立了YouTube,允许使用者上传、观看、分享和评论。到2006年11月,Google以16.5亿美元收购了YouTube并持续投入,直至其成长为世界上最大的在线视频网站(见图1-5)。截至2017年,YouTube的每月登录用户数达到15亿之多。

YouTube的商业模式,是鼓励人们上传他们的视频,展示给其他人,藉由各式各样上传者制作的视频内容,包括剪辑、短片、预告、音乐电视、业余拍摄的视频、宣传片等,吸引用户观看,其广告产生的收入将与制作者分成。在绝大多数情况下,包括没有Google账号的所有用户都可以直接观看网站上的视频并不需付费,如果内容不够吸引人,制作者就无法获得足够的收入,以此激励制作者提供更好的视频内容。

由于Google带来的极客风格,也因为YouTube本身巨大的用户量,YouTube在多项视频技术上都走在业界前列,YouTube较早地使用了VP9等独立开发的编码技术,节省了巨大的带宽和加载时间,也较早地拓展全球化业务,提供数十种语言的版本供不同国家的用户使用。在2015年,YouTube全面切换到HTML5播放,取代已经落后的Flash技术,同年,YouTube也开始支持360度影片的上传和观看。此外,在视频网站中,YouTube也在精准全面的内容推荐、广告投放和售卖以及编码和流媒体优化等方面有着极高的口碑。

(2)Netflix

在建立在线视频付费收看的盈利模式的服务提供商中,Netflix是当之无愧的先驱。公司早年的商业模式是提供在线DVD租赁,创始人Reed Hastings声称,他的动机源自某一次租的录像带过期被罚了40美元,就此他开始思考如何为用户提供更人性化的电影租赁服务。

Netflix首先推出的就是在线光碟租赁生意(见图1-6),相比之前称霸线下租赁的霸主Blockbuster,Netflix的轻资产、网上运营、邮寄到户让它可以用每次租赁0.5美元对5美元的价格大胜对手,随后,Netflix在1999年推出了无到期日、无逾期费、无邮费的会员制。

2007年,Netflix终于推出了在线点播服务,相对租赁业务,在价格、随时随地服务获取、个性化设置等方面大幅提升用户体验,2010年Netflix开始打入国际市场,2011年展开自制影视作品(如《纸牌屋》)的制作,2017年4月,Netflix还宣布与爱奇艺合作,将一些影视作品授权在中国播放,当前他们拥有的美国及海外付费会员用户合计已达到1亿。

公司早期使用微软的编码等技术,在之后的年份里,逐渐建立起卓有声名的工程师团队,改善其与众不同的技术栈,例如H.264、Dolby Digital、VP9、OGG、HLS和DASH等。在编码方面,近年Netflix已经走在业界前列,一方面很早就建立了精细化的编码优化体系;另一方面,Netflix将机器学习、深度学习和主观评测结合,建立起远超侪辈的编码效能。Netflix较早地使用云计算技术,将大部分服务放在AWS上,从2012年到2015年,公司还逐步建设起自己的CDN能力,服务国际用户,并给予外界许多启发。

从其他方面看,自2000年开始,Netflix就已经推出了个性化的电影推荐系统,用户可以为电影打分,网站根据用户的观看和评论历史,以及有类似兴趣的用户观看记录,向用户推荐内容。由Netflix发起的“百万美元推荐竞赛”,既帮助工程团队广取众长,也极为吸引眼球,让内容推荐成为行业内的“显学”。

(3)Hulu

2007年,NBC和新闻集团一同出资,组建了Hulu公司,为用户提供在线观看电影及电视剧服务,当前的主要股东包括迪士尼、NBC、21世纪福克斯和时代华纳。前期的Hulu与Netflix不一样,向用户提供免费的视频观看服务,但同时需要观看较长的贴片广告,后期则改变为类似会员制收费模式,与Netflix不同之处是,用户可以选择较便宜又没有额外观看限制的套餐,代价是仍需观看一定时长的广告(见图1-7)。

2013年,公司的主要股东曾想出售公司,但经过深入评估后发现在线视频的发展是业9界趋势,不应错失,所以反而大额出资,重塑公司的技术、服务和品牌。历经几年的二次发展,现在Hulu在美国已有数千万按月付费用户,此外,通过Yahoo等第三方渠道,每月也有数千万的观看量。Hulu还曾在日本投资,对当地用户提供在线视频服务,但运营不算成功,现已基本中止。当前Hulu于2017年最新发布的直播服务,将与有线电视台签约获取的上千个电视台以在线视频的方式,推送到千家万户,极受用户欢迎,有望成为公司的另一大倚靠。

公司很早就在北京设立研发中心,从清华、北大等顶尖高校招揽毕业生,为国内业界培养了许多高质量人才。Hulu是DASH协议的大力推动者和身体力行的使用者,在编码、流媒体、数据中心、大数据、推荐以及广告等方面都走在业界前列。

(4)Amazon

Prime Video是亚马逊旗下的在线视频服务,Prime服务可谓大名鼎鼎,用户只要加入会员,就可享受在线购物2日内免费送达,此外还提供许多绑定的服务,包括免费电子书等,Prime Music和Prime Video也赫然在列。借助亚马逊的强势地位,Prime Video在用户数上不逊Hulu,设备支持方面甚至颇有优势。配合公司的全球战略,Prime Video的国家覆盖范围甚至还要大过Netflix。但是,由于缺乏独立运营,Prime Video的内容和服务吸引力上和以媒体集团关系著称的Hulu相比尚有欠缺,也无法在自制剧上和天价投入的Netflix相比。公司虽然于此特别注重,但是暂时还不能与其他家抗衡。

亚马逊的AWS是世界最大,可能也是最佳的云服务提供者,其中就包括云上的视频编转码、数据存储、分发服务、CDN等,Prime Video近水楼台,也享有相应的技术优势。作为巨头公司,亚马逊还拥有Fire TV和Alexa音箱等与视频服务具有协同效应的产品,它还在2015年收购了视频公司Elemental,Elemental在业界以其基于GPU的高速、高质量编码技术知名,这也增强了其视频服务的整体实力。

(5)Sling TV

这是一项兴起不久的直播服务,由美国卫星广播巨头Dish Network推出,自2012年开始提供50个以上频道的直播节目,开始是通过Roku机顶盒提供服务,后来扩展到包括Fire TV、Android TV、Apple TV、XBox One、LG smart TV等在内的多种设备。公司的套餐设置(如“蓝色”或“橙色”等)颇为知名,到2017年中为止,共拥有200万付费用户。与此类似,DirecTV Now(属于AT&T)和PS Vue(来自Sony)也向用户提供多个频道打包的观看服务,以上公司大多还提供云录像(DVR)功能。

(6)Brightcove

Brightcove(见图1-8)是知名的老牌视频云服务提供商,2004年,Jeremy Allaire创办了公司并担任首席执行官,他也曾是Macromedia公司Flash平台的开发主导者。Brightcove的视频云可以被理解为SaaS类型的服务,支持用户上传视频、在线编转码、内容管理、DRM保护、定制播放器、跨平台传输、视频分销和广告等。Brightcove对规模不大的中小公司提供有吸引力的,有足够内容保护机制的方案,也帮助较大的公司建立市场,交易视频内容。

(7)Bitmovin

Bitmovin(见图1-9)是成立不久的视频服务新秀,与Brightcove提供相似的视频云服务,包括视频上传、转码、定制播放器、广告插入、数据分析等,因为没有技术负累,它专注于较新的技术栈(如动态码率技术、分段转码技术等),短短数年间已经建立起了较好的口碑。

(8)Conviva

Conviva是致力于在线视频优化和分析的公司代表之一,总部在硅谷,它通过接入在线视频公司的数据,帮助进行流媒体服务的分析,给出体验报告,并给予及时的预测和报警服务。即使较大规模的视频公司,也时常使用他们的服务,以替代自主构建数据存储和分析的设施。

以往,互联网的技术和模式,大都发源于美国市场,随后才能在中国的市场上见到模仿者,近年来却产生了一种新的趋势,即中国市场的领先公司开始依据市场特点和自身能力,首创出大量前所未见的应用方法、商业模式和技术方案,引领创新潮流,故而,中国的视频服务尤有值得记叙的一笔。

(1)优酷、土豆

作为YouTube在中国的模仿者,优酷于2006底年上线,到2007年,其日视频播放量就11达到1亿,初始致力于成为短视频分享平台,后转型为授权影视作品的点播服务,并涉足电影电视制作领域。土豆网与优酷类似,也在2005年成立,在很长一段时间内,优酷和土豆是中国数一数二的视频网站,二者分别于纽交所和纳斯达克上市,并于2012年3月通过100%换股方式合并,成为优酷土豆集团公司,后续公司延续双品牌运营,于2015年10月被阿里巴巴宣布收购,现已成为阿里文化娱乐集团的一部分(见图1-10)。

优酷在技术上早期依赖Flash文件格式和相应流媒体协议,较晚才转向HTML5,由于国内网络基础设施的限制和昂贵的费用,优酷很早就开始自行建立CDN,又有提供视频平台服务、直播、游戏等业务,对各项现代技术都有涉猎。在阿里巴巴接手后,许多平台直接采用阿里的成熟技术,架构体系发生了很大改变。

(2)搜狐视频

搜狐于2004年成立了搜狐宽频,即搜狐视频的前身,此后在多年的发展中,搜狐曾多次站在时代前沿,在2008年搜狐成为北京奥运会互联网内容服务赞助商,2009年搜狐独家首播大量正版影视剧,2013年搜狐成为美剧资源最多的视频网站,2014年56网并入搜狐视频。由于搜狐本身在近年的互联网竞争中处于弱势,与新浪视频类似,当前的搜狐视频已经无法在行业内引领潮流,但仍试图从VR技术等方面突围。

技术上,搜狐视频令人印象深刻的是其传统与P2P方式结合的点播与直播实现。由于国内基础设施和带宽价格的问题,在很长时间内,P2P都被视作一剂良方,多家在线视频公司均借此成名,如被苏宁控股的聚力视频,被爱奇艺收购的PPS,被百视通收购的风行网,以及暴风影音、迅雷等。

(3)乐视

今日的乐视深陷资金链风波,然而过去的年份中,公司也曾在视频领域有所成就。2004年,乐视成立,初期颇为挣扎,后在其他人没有意识到版权重要性的时候低价获取了大量优质IP,通过分销积累到第一桶金,到2010年以后,互联网影视渐成风尚,乐视也因此脱胎换骨,最高时曾十分接近在线视频服务的第一梯队。乐视在CDN建设、编解码技术等领域都有过独到之处,乐视电视提供较现代的界面设计和用户体验,也可供后来者借鉴。

(4)爱奇艺

2010年,百度经过认真考量,上线了视频服务奇艺,后更名为爱奇艺,从最开始,爱奇艺就全面跟随Netflix和Hulu模式,致力于正版影视领域,力求覆盖全面,塑造和竞争对手相比较高的品牌形象。2013年,百度收购了PPS视频业务,并将其与爱奇艺整合,一举超过多家竞争对手,在随后几年中成为中国主流的在线视频网站,在综艺、电影、动画、自制剧等方面尤有优势。

技术上,爱奇艺在2013年、2014年后上线了多项亮点技术。例如“绿镜”功能根据大数据帮用户精简视频观看片段,基于Docker的分布式转码服务,视频广告投放平台、个性化首页等,近年在将视频、数据与人工智能算法的连接上,爱奇艺也有出色表现,并于2018年在纳斯达克成功上市(见图1-11)。

(5)腾讯视频

腾讯视频在几大视频巨头中入局较晚,2011年才上线运营独立域名,与爱奇艺类似,它也定位在正版点播及电视直播上,其特色内容包括2013年上线的中国最大的英剧频道、2015年获取的NBA付费直播频道等。在技术布局上,腾讯视频不若爱奇艺全面开花,但胜在扎实推进,在存储、分发、编码、多终端支持、搜索、CDN、错误处理等方面均有可靠积累。近年来,腾讯建立了音视频实验室,与微信、QQ等部门的音视频技术团队相互砥砺,在服务质量上口碑颇佳。

(6)暴风影音

最早这是一款由暴风科技设计的播放器,原本以单一软件覆盖多种解码方式为卖点,逐渐发展成依托P2P技术提供视频聚合服务的公司,近年来,暴风公司将布局重点转向VR,发布了暴风魔镜等产品。暴风曾在2007年收购了早年由精英程序员梁肇新开发的知名播放器豪杰超级解霸,在播放上有“左眼”等亮点技术。

(7)Bilibili

与其他在线视频的巨头不同,Bilibili初始模仿日本流行的视频网站NICONICO,以极具特色的弹幕技术为吸引,构建了以二次元文化为核心、版权动漫和二次创作内容分享模式并重、社区氛围的在线视频观看网站,收入模式上很大程度依赖于游戏联运。Bilibili的弹幕技术和运营融合较好,亦在基于HTML5的播放体验上表现良好。

(8)金山云

自张宏江博士从微软工程院离开来到金山,金山在云服务尤其是视频云上投入了大量的资源,其中在视频领域的H.265编码器可谓一大亮点。金山云的编码团队采用从最小工具集开始重新编写、结对编程、极限编程等方法达到令人惊讶的编码性能,2016年其编码器KSC265在视频编码器大赛上获得软件编码器第一名。

或许不如上述公司广为人知,但行业中活跃着的玩家形态多种多样,各不相同,有的公司以软件知名,也有公司以硬件设备著称,切入点既可以是复用器、编码器,也包含客户端设备,但凡有一技之长,又能把握市场脉搏,都能够在市场中发挥影响,博取利润。

(1)DivX

DivX既是公司名称又是产品名称,软件产品包括播放器、网页播放器、转码器和编解码包,其编码器最广为人知的版本DivX3.x实际是微软的MPEG-4v3编码器的Hack版本,其次是DivX4。2007年,DivX收购了专业的编码技术提供商MainConcept。

DivX在欧洲有最多的用户,在美国得到了许多好莱坞电影公司的认可,亚洲也曾有很多地区流行过相应的格式。与RealNetworks相似,纯粹的软件提供商今天已不是行业的中心,仍然让人铭记的是其在世纪初对产业发展的推动作用。

(2)Harmonic

哈雷公司是广播电视行业的巨头,关注的市场包括地面广播、有线接入、卫星直播、电信运营商、OTT内容分发和内容编制等,其在编转码、播出、存储、采集、分发、云视频等技术上均有深厚积累,尤其在硬件编码器上一向具备顶尖的实力(当然也有不菲的价格),包括Harmonic、Harvision、Harris、RGB、Teradek、BoxCast在内各厂商的硬件编码器常常被用于满足有线电视服务商和在线视频服务商的后台需求。

(3)Roku

Roku是一系列以播放音视频多媒体内容为主的机顶盒产品(见图1-12),通过有线或WI-FI连接互联网,Roku机顶盒从不同内容提供商(如Netflix、Hulu、HBO、DirecTV Now、Sling TV等)那里获取内容并提供给用户。机顶盒采用定制的操作系统Roku OS,以其低廉的价格和出色的内容整合能力,在2017年的统计中,占据美国37%以上家庭的客厅。

与之对应,中国的互联网机顶盒因有牌照限制,是和IPTV隔离的不同市场,只有CNTV(中国网络电视台)、上海文广、华数、南方传媒、湖南广播电视台、CRI(中国国际广播电台)、中央人民广播电台七家实体具备提供服务的资格,其他服务提供商必须与牌照方进行合作才能合法运营。当前多方混战之下,小米盒子、天猫魔盒等各擅胜场,创维、海信、爱奇艺、华为、海美迪等也不甘落后,较之美国市场更为混乱。

(4)Wowza

公司自2005年建立,在那个Adobe的Flash流行、RTMP协议广泛应用的年代,Wowza较早地打破Adobe Media Server的垄断,提供了基于RTMP的流媒体服务器,随后快速扩展到支持各种编码格式和流媒体协议,提供DRM支持,编码支持以及云服务。由于低价扩张、在线认证的商业模式和快速添加的功能集,Wowza很快对流媒体服务器的前霸主Helix Server和Adobe Media Server形成威胁并快速超越。

Wowza近年来较为知名的举措是开发了硬件编码器ClearCaster(见图1-13)用于Facebook上直播的支持。

(5)Beamr

这是一家业内人士才会关注的技术公司,成立于2009年,总部在以色列。他们专注于编码技术的优化,从H.264时代到现今的H.265,在符合标准并保证主观观看质量的前提下,将视频压缩得更多。由于视频编码技术的门槛,较小的在线视频公司常常使用它的服务以优化存储空间和带宽的使用。

音视频内容在多数时候都是以文件形式存储,互联网用户泰半都有下载视频或音频文件播放的经历,此外手机、数码相机、摄像头等数字设备也大量地生成各种各样的音视频文件。在市场上由于技术的发展和不同公司的竞争,产生出许多流行的文件格式,较著名的有WAV、MP3、RM、MPG、WMV、WMA、AVI、MOV、MP4、3GP、FLV、MKV、AC3、AMR、OGG、AAC、APE等。习惯上,因为视频相较音频占据主要地位,既包含视频内容也包含音频内容的文件被称作视频文件,而音频文件常常指仅有音频内容的文件。

音视频编码技术是视频行业存在的前提,视频信号数字化后占用大量的存储空间和数据带宽,高清视频的码率往往可以达到约200Mbit/s,以此推算120分钟的电影将占到180GB以上,无论从存储还是传输角度,都是一个难以接受的数字,而通常可以下载的高清电影视频,也不过是2~8GB大小,这其中依靠的就是音视频编码技术了。

所谓编码技术,实质是一种针对特定音视频格式内容压缩成另一种视频格式的方式。随着技术的发展,市场上常见的视频压缩技术有RV、VC-1、MPEG2、H.263、H.264、H.265、VP8、VP9等,音频压缩技术包含MP3、RA、AMR、AAC、Vorbis、AC3、APE等,而上述的文件格式,则定义了作为一个容器如何将视频和音频编码完成的内容封装在内的方法。

举例而言,一个MP4文件内,可能包含通过H.264技术编码的视频内容以及通过AAC技术编码的音频内容,而MP4文件如何规范视频、音频及其他信息在这单一文件内的存储方式,则被称作打包技术或封装技术。不同编码技术的出发点大体一致,都是为了让音视频内容的质量可以损失更小,压缩率更高,不同的文件封装技术则略有不同,有些是为了支持特定的编码技术,有些则希望通过支持多种不同的编码技术,成为较为通用的容器。下文将分门别类地介绍一些常见、典型的文件和编码格式。

(1)WAV

很多人应该会对Windows3.X或Windows 95/98中的系统声音印象深刻,彼时如果查看系统目录,可以找到对应的声音文件都是WAV格式。WAV是微软开发的一种声音文件格式,它实际是采用RIFF[1]文件规范存储的,WAV是文件的扩展名,内中音频的格式通常是PCM,也可以存储一些压缩过的数据。常见的WAV文件和CD格式一样,具有44.1K的采样率[2],16位采样位数[3],并支持单声道或立体声[4],即WAV文件的大小可以通过采样率×采样位数×声道×时间计算得出(需除以8,因为1字节=8Bit)。

(2)MP3

以WAV为代表的音频文件因为未经压缩,所以较少用来存储较长的声音内容,在20世纪末,大量音频文件使用MP3格式进行存储,下载和交换,提供较好的音质和压缩比率,甚至催生了以此为名的硬件设备,虽然市场上早有压缩率更好的格式诞生,但MP3格式一直流行到现在。MP3的准确名称应为MPEG-1或MPEG-2Audio Layer 3,它的发明和标准化是由德国的研究组织Fraunhofer-Gesellschaft完成的,而它的普及,则对整个世界的音乐生态影响深远。

MP3实质是对PCM数据中涉及的人类听觉不重要的部分进行舍弃,从而压缩得到较小的文件,它提供多种不同的bitrate(每秒所需数据)的选择,常见速率有128kbit/s、192kbit/s、320kbit/s等。

(3)RM、RMVB、RV、RA

RM即RealMedia,是RealNetworks公司创建的专用多媒体容器格式,文件扩展名多用“.rm”,通常用于RealVideo和RealAudio的结合,一般是CBR(固定码率)编码,RMVB则是RM的换代格式,支持可变码率。RM格式的主要特征在于不需要下载完整文件即可播出,并可以根据不同的网络传输速率制定不同的压缩比率,可见它一开始就定位在流媒体应用方面。

每个RM文件内部,是由一系列的Chunk组成,每一个Chunk的格式如下。

注:③FOURCC是一个4个字节32位的标识符,通常用来标示视频数据流的格式,播放软件可以通过查询FOURCC代码并寻找对于解码器来播放特定视频流,取值通常由各个格式标准自行定义,如DIV3、DIVX等。

RM文件支持的Chunk类型包括.RMF(文件头)、PROP(文件属性)、MDPR(流属性)、CONT(内容描述)、DATA和INDX(文件索引),更多文件格式信息可见参考文章。

RV是RealNetworks独有的视频编码格式,由于采用了诸多领先的技术,在低码率情况下有非常出色的压缩比,相对应的,RA格式是公司专有的音频编码格式。普通RM文件中使用RV8.0版本,而RMVB文件中则通常是RV9.0或10.0版本,实际RM与RMVB格式可以支持另外一些编码器版本,但并不常见。

(4)MPG

MPG文件后缀名可以是“.mpg”或“.mpeg”,内含两种文件格式,即PS(Program Stream,节目流)和TS(Transport Stream,传输流),分别用于不同的场合,根据格式不同,后缀名也可能是“m2p”“.ps”或“.ts”。

PS格式来自于标准MPEG-1Part1(ISO/IEC 11172-1)和MPEG-2Part1(ISO/IEC 13818-1/ITU-T H.222.0),PS格式由一个或多个PES组成(Packetized Elementary Streams,封装的基本流),其中每个流具有一个时间基准,用来在磁盘上进行存储。该格式里面还可以包含多种格式。

TS格式则更适合网络传播,同样来自ISO/IEC 13818-1标准。在逻辑上,一个TS文件(或传输流)包含一组SubStream(即PES),可以是视频、音频、MJPEG或JPEG2000的图片、字幕或EPG(见图1-14)[5]。每个流都被分解组装到188字节大小的包中,由于每个包都较小,可以容易部分地传输,各个流之间可以交错排布。

每个TS包都包含有一个4字节大小的包头,其中包含同步字节和PID(Packet Identifier,包标识)等信息,每个PID值都描述了TS中的一个流,例如,当PID为0×0时,表示当前流为PAT,描述了整个TS包含的信息。而PAT流中另行描述了PMT流的PID,据此可以找到其他各个音视频流的信息。PAT和PMT可以被统称作PSI(即Program Specific Information,节目专用信息,实际这个概念下还包含CAT和NIT两种流),也是解析TS文件的关键。更详细的信息可参考标准文档或维基百科。

(5)WMV、WMA、ASF、MMS、AVI

WMV是一系列由微软开发的视频编码格式和文件格式,其中WMV version 9因为被许多地方选用而以VC-1编码格式之名为人熟知,微软为此专门开发了一种名为ASF的文件格式来存储,但后缀名既可能为“.asf”,也可能为“.wmv”。与之相伴,名为WMA的音频编码格式,能够以较MP3少1/3~1/2的码率存储相似音质的音频,通常后缀名为“.wma”。微软在同时代还曾开发过名为MMS的流媒体协议,基于UDP或TCP进行传输,后升级为MS-WMSP协议(又称WMT,即Windows Media HTTP Streaming Protocol),可以使用HTTP传输。

AVI全称Audio Video Interleaved,是微软在很早便推出的多媒体文件格式,但因其良好的适应性,仍然被广泛使用。AVI可以支持非常广泛的音视频编码格式,包括较新的H.264、HE-AAC等。AVI由RIFF格式衍生,它的文件结构分为头部、主题和索引三部分,描述信息通常放在INFO chunk里,视频和音频数据在主体中依照时间信息交互存放,从存在尾部的索引可以任意跳到视频流的中段。因为索引的尾部设计,AVI不太适用于流媒体传输的场景,更详细的文件格式描述可以参考MSDN。

(1)MOV、MP4、3GP

MOV文件是苹果公司对多媒体行业的一大贡献,它又被称作QuickTime File Format,可以包含一个或多个Track,每个Track存储:视频、音频或字幕中的一种类型的数据,每个Track又由一个层次分明的Object结构组成(每个Object又叫Atom)。一个Atom可以包含其他Atom,也可以包含多媒体数据,但不能兼得。

MP4文件几乎完全基于QuickTime文件格式,它由标准ISO/IEC 14496-12规定,并且添加了extension,形成MPEG-4Part14(见图1-15)。MP4文件还常有另外一些文件名后缀,如“.mpa”,“.m4v”等。详细的文件格式定义可参见标准文档。

MP4文件用于下载播放时,moov对象应写在mdat对象前面,以便在访问数据前收到所有的metadata信息。用于流媒体播放时,则文件内应有特殊的Track(Hint Track),每条Hint Track将与一条多媒体Track连接,用于描述流式传输所需的信息。

3GP常被称作3GPP文件,是由3GPP组织定义的文件格式,设计目的是用于3G移动网络中,其定义和MP4非常像,也是基于MPEG-4Part12发展出来的。另外又有3G2或称作3GPP2的文件格式,其和3GP文件的区别是,一个用于GSM网络,另一个用于CDMA网络。

一个典型QTFF文件的Atom层次示例如图1-16所示。

(2)FLV、F4V

这是一种随着Flash发展而发布的,适用于流媒体传输的视频格式,内部初始基于Sorenson公司的编码算法,也支持H.263及VP6等格式。由于YouTube、Hulu、优酷、土豆等网站早期均大量使用Flash技术,FLV文件也变得非常流行。与之配合,FLV文件的传输多使用RTMP协议,Adobe还提供免费的Flash Media Encoder(Flash媒体编码器)帮助生成FLV格式的文件。

在Flash Player 9的Update3中,Adobe推出了F4V格式,主要为支持H.264和AAC编码,文件格式完全基于ISO Base Media File Format(即ISO/IEC 14496-12)的标准,与MP4、3GP文件格式等高度相似。详细的FLV/F4V文件格式可见Adobe网站的Spec说明。

(3)MKV

随着互联网视频的流行,一种兼容多种媒体类型的容器格式(文件格式)流行开来,这就是Matroska,MKV即是Matroska系列中的一种格式,其后缀名多为“.mkv”,另有适用于单一音频的“.mka”文件和独立的字幕文件“.mks”。

从概念上讲,MKV容器和MP4、AVI、ASF等处于同一层次,吸引开发者和用户注意之处是其免费和开源,它的最大特点就是支持多种不同类型编码的视频、音频、字幕,甚至包括章节、标签信息,还可以加上附件。此外,MKV支持EDC错误检测代码,意味着没有下载完成的MKV也可以播放,且容器本身占用的空间比其他格式还要略小。具体文件格式细节可见Matroska的社区网站。

(4)AC3

Dolby Digital格式,又称作AC3,是Dolby(杜比)公司开发的一系列有损或无损音频格式中的一种,其规格标准的名称为ATSC A/52,俗称5.1,因为音频内容包含5个不同的基础声道[即右前(RF)、中(C)、左前(LF)、右后(RR)、左后(LR)]以及一个低频声道。与之相关的还有Dolby Digital EX(杜比数字扩展)、Dolby Digital Live(杜比数字直播)等,其中Dolby Digital Plus应用较为广泛,支持多达14声道,别名为EAC3。在广播电视领域中,AC3或EAC3常常用作原始文件的格式,也可通过TS流形式传输,常见的码率有384kbit/s,448kbit/s等。关于AC3和EAC3的详细描述,可参考ATSC的标准文档。

近年来,杜比又开发了全景声技术(Dolby Atmos),继续其在高质量影音播放效果方面的布局,但它和AC3/EAC3技术不能兼容。

(5)H.263、MPEG4

MPEG标准组织曾定义MPEG1、MPEG2、MPEG3和MPEG4格式,希望适应不同带宽和视频质量的要求,微软在1998年开发了第一个MPEG-4编码器,包括MS MPEG4v1、MS MPEG4v2和MS MPEG4v3系列,其中V3的画质有显著进步,曾经颇为流行的DivX即是盗版MS MPEG4v3并加入了一些特性得到的编码器。

H.263是ITU-T为视频会议设计的低码率视频编码标准,之后还有增加了新功能的H.263v2和H.263v3。H.263和MPEG4两种编码格式的设计存在很多相似之处,二者曾在世纪初满足了很多领域视频编码的需求,虽然现在被认为已经过时,在各个环节都被H.264和HEVC取代,然而还有一些仍在服役的设备和软件使用它们,还有被转码成较新格式或播放的需求。

(6)H.264

标准MPEG4Part10,Advanced Video Coding中规定的编码格式,缩写为MPEG-4AVC,又称作H.264,是当前应用最为广泛的视频编码格式。编码格式基于较新的运动补偿的方式设计,第一个版本于2003年完成,陆续增加了多个新特性,其MPEG4AVC的名称来自于MPEG组织,而H.264的命名则延续了ITU-T社区的约定。关于H.264技术的详细内容,后文将给予专门的介绍。

H.264之所以可以得到或许是历史上最广泛的应用,除了它代表近年来比较先进的视频压缩技术,很重要的因素在于其专利许可政策标准(价格)较低并具备很强的操作性。首先,AVC许可政策每台设备仅收取0.2美元的费用,远低于前一代MPEG-2格式的每终端约5美元的价格(2002年降价后也需要2.5美元),相比MPEG4,取消了按编解码时间收费。

H.264的许可政策对较小规模的使用完全免费,收费仅针对较大的设备出货量且存在封顶,这让商业模式变得非常灵活,例如思科可以开放其H.264视频编解码器的源代码,所有人都可以免费使用,就因为思科已经缴足了封顶的专利费用。对于点播服务,专利收费政策也十分友好,按次付费则仅对12分钟以上的内容收取终端用户付费的2%,如按月付费的会员制则在超过100万用户/年的情况下仅封顶收取10万美元。

编码格式详细描述可见ISO标准文档。

(7)H.265

High Efficiency Video Coding简称HEVC,又称作H.265。与H.264相似,两个不同名称分别来自于ISO/IEC MPEG工作组和ITU-T,目标是替代H.264成为新一代视频编码标准。HEVC在编码效率上较H.264有接近50%的提升,可以支持最高8K分辨率,当然作为代价,在编码方法上也更为复杂。与H.264类似,HEVC也采用Hybrid(混合)编码架构(见图1-17),但加入了许多新的工具集。此外,该标准也拓展到360度视频、3D视频等。

虽然HEVC的标准已经开发完成数年并且相比H.264有很大的压缩效率优势,但并没有得到很好的普及,究其原因是专利费的问题未能很好地解决。当前一共有几个主要的专利组织和公司声称握有部分HEVC的专利,要求收费,包括MPEG-LA、HEVC-Advance专利池等,Velos Media和Technicolor公司等也都有独立发起的专利池或专利收取意向,且在费用需求上非常巨大,让硬件和服务商望而却步(图1-18)。另一方面,由于HEVC推广步履维艰,与之竞争的编码标准格式近年吸引了大量关注,除YouTube外,Netflix等很多其他公司也大量采用VP9格式编码视频,以及持续关注号称完全开源和免费的AV1。

最新的HEVC编码方式可详见标准文档ISO/IEC 23008-2。

(8)AAC

德国的Fraunhofer-Gesellschaft协会下设80多个研究所,曾发明MP3等格式,为了比MP3得到更好的压缩性能,研究所和AT&T、杜比公司、索尼和诺基亚一起,设计了AAC格式。在后续章节中,我们会对AAC格式进行详细的介绍。因为AAC的优异特征,早先在MPEG2中就被标准化,见于ISO/IEC 13818-7,在加入SBR和PS技术后,又被作为MPEG4标准的一部分,称为MPEG-4AAC,以ISO/IEC 14496-3为人所知。

(1)WEBM、VP9、OGG、Vorbis

WEBM项目受Google资助,采用Matroska格式为基础进行封装,内部采用On2Technologies开发的VP8和后续版本VP9视频编码器以及Vorbis、Opus音频编码器。On2公司曾开发颇为流行的VP系列编码器,尤以VP6知名,被Flash 8采用作为视频编码格式,后为Google收购。

2010年,在Google I/O上,VP8被以BSD License授权开源并允许所有人免费使用,Google从MPEG-LA取得了VP8可能受影响的专利,再次授权给VP8的使用者,解除使用者的后顾之忧。VP9作为VP8的后续版本,被Google期望与HEVC竞争。以WEBM格式、VP9、Vorbis为核心,Google的野心在于统一HTML5的视频编解码支持,Chrome、Mozilla都在浏览器内嵌支持VP9。

与VP8/VP9相伴,Vorbis是一种有损音频编码格式,由Xiph.Org基金会领导开发,通常以Ogg作为容器格式,所以也常被称作OGG音频,同时Vorbis可以被封装于Matroska格式中,也可用于作为Matroska子集的WebM。

(2)APE

无损音频编码格式APE,又称作Monkey’s Audio,与前面介绍的MP3、AC3/EAC3、AAC、Vorbis不同,这种编码格式可以保证解码出来的音频和原文件听起来完全一样。这是一种免费的编码格式,与之相似的还有FLAC等格式,在需要提供高品质音频下载服务时常被用到。

在工业界几十年的发展过程中,曾经广泛使用的文件格式和编码技术远不止上述种类,还有如ALACDV、DivX、G.719、G.722、G.723、MOD、Sorenson、VOB等,国内一些标准(如AVS、AVS2等)也取得了一定的用户。但由于多媒体工业已经发展到一定的阶段,占优势的格式会形成马太效应,除通用播放器,编码器需要比较注意完整的格式支持以外,大多数在线服务仅需要选取少量可以跨平台支持的编码和文件格式。

在计算机行业各相关领域的技术发展史上,标准委员会和合作组织都起到了非同寻常的作用,例如大家熟知的W3C组织,在推动CSS、DOM、HTML等技术的广泛运用上就建树颇多,多媒体领域也不例外,在前文中,已经提到了一些标准组织,这里再作择要介绍。

MPEG是Moving Picture Experts Group(动态图像专家组)的简称,组织成立于1988年,致力于开发视频、音频的编解码技术,MPEG-1、MPEG-2、MPEG-3、MPEG-4、MPEG-7、MPEG-21等标准均由其制定。MPEG工作组由ISO和IEC建立,下设需求、系统、视频、音频、3D、测试、交流等小组。在每次会议上,委员会将审查不同意见,将工作分配给下次会议的成员,MPEG所产生的ISO标准由5位数字表述(例如13818、14496),从小组内部的新工作建议开始,工作建议(NP、即新提案)先在小组级别,其次在整个委员会级别批准。

当新标准的范围已经被充分讨论和划分,MPEG通常会发布CfP(即Calls for Proposals,提案征集),根据标准的性质可能会产生不同的文件,例如测试模型,用编程语言描述的编码器和编码器的行为。如果MPEG已经对开发中的标准稳定性有信心,就发布WD(Working Draft,工作草案),其形式已经贴近标准文档,但同时仍在持续修订,直到变成CD(即Committee Draft,草案),随后经由投票,成为FCD(Final Committee Draft,最终委员会草案),如果通过了二次投票,则成为IS(International Standard,国际标准)。

近期MPEG工作的焦点在于H.266标准、MPEG-I项目(VR视频的压缩、存储和分发)、CMAF文件格式(针对HTTP Streaming的方案)、MPEG-NDVC小组(标准化互联网视频服务)等,5年路线如图1-19所示。

国际电信联盟电信标准化部门,即ITU Telecommunication Standardization Sector,缩写为ITU-T,是国际电信联盟下属的专门制定远程通信相关国际标准的组织,总部在瑞士日内瓦。其中的VCEG(Video Coding Experts Group或称Visual Coding Experts Group,视频编码专家组或视觉编码专家组)包含了第16工作组(Multimedia coding、Systems and Applications,多媒体编码、系统和应用)以及第3工作组(Media Coding,媒体编码),组织开发了JPEG、JPEG2000、H.261、H.262、H.263、H.264、H.265等一系列标准,极具影响。

VCEG小组和MPEG工作组在共同工作的过程中,形成了JVT(Joint Video Team,联合视频工作组),推动和管理H.26X的标准化开发,实际运行时,JVT经常和VCEG以及MPEG同时召开会议,产生的结果两边共享。

IETF(the Internet Engineering Task Force,互联网工程任务组)成立于1985年,主要工作于互联网相关技术标准的制定,内部有各种工作组,凡由研究人员通过专题研究有所进展后,即可向IETF申请成立BOF(Birds of a Feathre)小组,开展筹备工作,当筹备完成后,如通过IETF认可,则正式成立工作组,在IETF框架下展开专项研究,如路由、传输、安全等专项工作组。根据不同的领域,工作组由Area Director协调管理,整体则由IAB(Internet Architecture Board)监督。

RFC(Request For Comments)是IETF发布的系列备忘录,最开始是非正式文档,最终演变为记录互联网协议规范的标准文件。RFC只会新增序号,不会取消或撤回,但对于一个明确的主题,后续的RFC很可能替代旧的RFC成为人们遵循的标准。很多常见的协议都是以RFC格式发布,如记录IP协议的RFC791,描述TCP协议的RFC793、DHCP协议的RTP2131、HTTP1.1协议的RFC2616、RTP协议的RFC3550等。

DASH-IF(DASH Industry Forum,DASH工业论坛)是一个由Microsoft、Netflix、Google、Ericsson、Samsung、Adobe等60多个公司组成的组织,以推广DASH流媒体协议为己任。2012年,国际标准化组织批准了MPEG-DASH协议的初版本,至今已演进了多个版本(见图1-20),他们的愿景是用单一行业定义的开放标准取代多个公司私有控制的协议和解决方案。

上面介绍了一些行业聚焦的标准组织,那么,在线视频公司为什么要加入或追随标准组织的进展?

当前的互联网世界里,个人软件英雄已越来越少,标准的形成降低了技术壁垒,很容易带来马太效应,即使一时某些公司凭借灵光一现或数年积累做出优于侪众的产品性能,暂时领先,也可能因为用户的疑虑而无人问津,因为标准的更新而土崩瓦解。复杂的技术如H.264,内含数十个大的编码工具、几百份专利,还需要兼顾未来的扩展和发展,取得软硬件开发商的共识,并非一家小公司可以完成。虽然与之对标竞争的VP8编码格式由Google一手缔造,但也仅在YouTube天量的服务用户下才得以应用,偏占一隅。

各个公司根据自己的业务需求,可以选择关注和跟随不同的标准组织,除上述介绍之外,还应考虑关注ITU-T VQEG(Video Quality Expert Group,视频质量专家组)、W3C(World Wide Web Consortium,万维网联盟)、AOM(Alliance for Open Media,开放媒体联盟)、UHD Alliance、SCTE(Society of Cable Telecommunications Engineers,有线电信工程师协会)、CTA(Consumer Technology Association,消费技术协会)、SMPTE(Society of Motion Picture&Television Engineers,电影和电视工程师协会)、VSF(Video Service Forum,视频服务论坛)等组织。

此外,由于链接研究与工程的需求越来越大,强烈建议大家关注一些学术界的会议,例如多媒体领域的:

·ICIP(International Conference on Image Processing,图像处理国际会议)。

·DCC(Data Compression Conference,数据压缩会议)。

·ACM MM(Association for Computing Machinery on Multimedia,计算机械协会的多媒体年会)。

计算机视觉领域的:

·CVPR(Conference on Computer Vision and Pattern Recognition,计算机视觉与模式识别会议)。

·ICCV(International Conference on Computer Vision,计算机视觉国际会议)。

·ECCV(European Conference on Computer Vision,欧洲计算机视觉会议)。

聚焦安全的:

·IEEE Security and Privacy(IEEE安全和隐私)。

关注推荐的:

·ACM RecSys(ACM的推荐系统年会)。

·ACM SIGKDD(ACM Sepecial Interest Group on Knowledge Discovery and Data Mining,ACM的知识发现和数据挖掘兴趣小组)。

此外,某些领域的期刊也有很大影响,如TCSVT(Transactions on Circuits and Systems for Video Technology,视频技术电路和系统学报)、Transcations on Multimedia(多媒体学报)。

参加或跟随会议和期刊,可以了解他人的研究方向,理解和跟进业界最新进展,迸发个人和团队的灵感,有助于确定整体技术路线和下一步的聚焦内容。快速判别新技术的影响并抢先实现关键部分,足以帮助公司和产品先行一步,获取竞争优势。更进一步来说,公司可以提出标准提案、注册专利、扩大技术影响力,为公司提供护城河,丰富收入类型(专利授权),吸引人才和加强公司品牌形象。

近年来,国内的公司开始越来越多地参与标准组织的工作,包括华为、阿里、腾讯在内的巨头公司,分别加大了相应的投入,更多地出现在标准会议中并发声,提升各自乃至整体中国公司的影响力。

[1] RIFF系Resource Interchange File Format的缩写,每个WAVE文件的初始四个字节即为'RIFF',并由多个Chunk组成,其格式大致如下。

更详细的格式描述可见参考文章。

[2] 采样率,也叫采样速度,定义的是每秒从连续信号(模拟信号)中提取并组成离散信号的采样个数,单位是赫兹(Hz),一些常用的采样频率包括:8kHz,电话的采样频率;22.05kHz,适于无线广播使用;44.1kHz,CD、VCD的常用频率;48kHz,DVD、数字电视的默认频率;96kHz,蓝光音轨的采样率。通常情况下,采样率较高,说明音质可以得到较好的还原,根据采样定理,如果采样频率高于信号中最高频率的两倍,则连续信号可以无失真地从采样样本中完全重建。

[3] 采样位数,指的是在每次采样时,转换后的信号所被记录的位数,如单声道文件,常用8比特的短整数记录,而双声道立体声,每次采样数据为16位整数,高8位为左声道,低8位为右声道。

[4] 声道有单声道和双声道(立体声,英文为Stereo)之分,较特别的如杜比环绕立体声(见后文AC3部分)则有6个甚至8个声道,立体声因为音箱分处不同位置,可以一定程度地还原声音原有的空间感和层次感。

[5] EPG(Electrionic Program Guide)是广播电视领域中常用的概念,是指提供的电视节目表信息,也可以称作TV Guide。另外实际上,虽然不太常见,TS包是有可能突破188字节限制的,根据情况可能达到192字节或者204字节。

相关图书

深入理解FFmpeg
深入理解FFmpeg
Final Cut Pro X基础培训教程
Final Cut Pro X基础培训教程
三步玩转短视频
三步玩转短视频
新媒体短视频全攻略:前期拍摄+后期处理+广告变现+营销推广
新媒体短视频全攻略:前期拍摄+后期处理+广告变现+营销推广
调色师手册:电影和视频调色专业技法(第2版)
调色师手册:电影和视频调色专业技法(第2版)
Cubase与Nuendo音乐编辑与制作实战从入门到精通(第2版)
Cubase与Nuendo音乐编辑与制作实战从入门到精通(第2版)

相关文章

相关课程