扫码打开虎嗅APP
声网Agora为开发者提供简单易用、高度可定制和广泛兼容的应用编程接口API,可以将实时音视频能力嵌入到开发者的应用程序中,不需要研发技术开发者自己另外去构建底层基础设施。2020年3月单月,声网Agora通过10000多个活跃应用为100多个国家的终端用户提供了超过400亿分钟的实时互动使用时长,支持包括社交、游戏、教育、物联网、金融、医疗、企业培训等在内的诸多行业。
本文来自微信公众号:GGV纪源资本(ID:GGVCapital),作者:赵斌,编辑:张颖,本期内容编译自GGV英文播客《Evolving for the Next Billion》2020年3月期,题图来自:视觉中国
2013年,我创立了声网。声网是做什么的?事实上,声网实现的是实时音视频互动功能,并以SDK(软件开发包)和API(应用程序接口)的形式提供给应用软件开发者。也就是说利用声网的API,开发者可以快速在应用内构建多种实时音视频互动场景,让每个人都能轻松实现与其他人的实时连接和互动,并且能随时随地开展社交和商业活动。
声网主要以免费+增值模式为主来服务于开发者。我们也是一家对开发者十分友好的公司,原因是我自己曾经做过很长时间的开发者,而现在我依然是一名开发者。
因此,从一开始,我们就决定向所有的开发者提供每个月10000分钟免费时长的API服务,目的是为了让所有开发者都可以用声网来尽情发挥创意,探索出新功能。
从根本上来说,声网是一个供开发者们测试、创造新应用场景和新服务的乐园。
声网的设计包括软件定义实时网SD-RTN™,它对传输路径进行了优化,同时也有能力把所有人的传输路径聚合到同一场会话中。所以声网可以支持大量人员参与同一场会话,甚至可以支持百万人级会话。
声网的受众遍布全球,也曾经支持10万人同时参与同一场直播。当遇到一些很红的直播表演者时,我们的技术可以支持几十万粉丝直接进入直播,并且播放会很流畅。
一、疫情中突如其来的增长机会
过去几个月,我们的团队一直在帮助学生们在疫情这种特殊时期在线学习,特别是中国学生。
事实上我们面临了很多挑战,尤其在疫情刚刚爆发的时候。
我们服务的客户里包括新东方,当我们意识到疫情带来的严重问题时,已经接近春节放假了:疫情时期的在家学习意味着线上流量的增加,而为了支持新增的流量,我们需要更多的资源。但当时因为放假,资源和供应链都暂时停掉了,要想实现技术支持,我们缺乏很多设施和设备。
幸运地是,我们之前搭建了超高弹性的网络架构设计,通过紧急的资源调度,可以实现快速扩大规模,也依赖于之前搭建的一支成熟的服务团队,帮助客户积累了线上教学的经验。最终我们发动了所有能够利用的供应商,快速提高处理能力,一起解决了全球各地大量的学生在新东方上线上课所面临的实际困难,也为新东方在内所有具有特殊需求的客户提供了优秀的服务。
二、艰难的成本抉择
虽然完成了任务,但背后依然面临着艰难的抉择。
疫情期间,很多线下教育公司面临停业,我们预判到这一状况,开始动员团队为这些公司可能会转入线上教育的潜在需求做好准备。
但这时候我们发现,如果试图消化所有激增的客户需求,我们需要采购更多新资源。实际情况是,当时因为假期,很多设施都被封锁了,很多供应商也都没开工,资源非常稀缺,也很难拿到,还有很多其他公司也在“抢”资源。
最后,资源采购价格猛涨,我们只拿到了一些非常昂贵的基本资源。
在声网,我们一直实行着以客户为中心的文化,这也意味着我们时时刻刻要为客户尽力做到最好。但线上流量的激增,带来的也是高昂的成本。创业公司弹药有限,面临成本巨幅激增的挑战,我思考的最大一个问题是:我们应该如何选择呢?究竟是选择牺牲我们可以为教育行业客户提供的服务,还是牺牲向客户提供的服务质量?
所以,当时我做了一个在现在看来很有挑战性的决定:虽然我们还只是个初创企业,但我们最终还是决定不对客户涨价,自己来消化骤增的成本。我们将继续原价为大家提供服务,向客户群体提供品质有保证的服务,在资源方面不惜一切代价,保证资源充足,坚持我们对客户的品质保证,坚持我们的原计划。
除此以外,我们还决定向在线教育、在线医疗行业提供部分公益性服务,因为受疫情影响,大家都不敢去外面和学校,基本所有线下培训或者学校都关停了,很多孩子不能像往常一样去上课,我们必须站出来帮助他们。
疫情期间,我们算了算,部分资源的最终采购价格是常规价格的五倍之多。我想,这也是我们经历的具有挑战性的决定之一。
截至目前为止,高峰时期我们有超过100万名用户同时在线,同时上课。并发量相当大。这跟正常的线上课堂体验类似。很多都是有10到40个学生在同一个教室,但是形式更多样化,并发量更大,其中一场直播课有2万多名学生参与。
三、实时互动云技术和产品本身的难点在哪里?
我在实时音频视频领域工作多年,深知这其中有诸多难点:
语音、IP、视频和公共网络中出现的质量问题,往往来自于公共互联网的不稳定。公共互联网本身就是一种“尽力而为”型的网络。对于所有的音频数据包或实时数据包,公共网络不仅不能保证按时把数据包传送给接收方,甚至也没法保证最终能不能送到或者会不会丢失。
为了解决这个问题,我们研发了软件定义网络SD-RTN™,专门对实时流量进行优化,这被称之为软件定义的实时网络,确保我们的服务质量可以接近于专网或专线,以实现我们所需的整体服务稳定性。
而且我们在音频编解码、视频编解码等信号处理算法方面也有全球领先的深度技术创新,即便是在面临低端设备或终端线路传输不稳定等困境时,我们依然可以为用户提供高质量的服务。
四、实时音视频技术的机遇
实时音视频技术会遇到哪些机遇呢?
在我看来,第一个机遇是硬件上的。智能手机是一个特别好的产品载体,也是特别好的机遇。
智能手机的广泛应用,是让实时音视频技术和硬件结合的好时机。因为智能手机本身就是个完整、现成的技术对接设备,它自带两个高质量摄像头,现在甚至可能有三个、四个,而且它还自带高质量麦克风,可以设计成有编程能力的通讯设备。
所以,在我看来,创造价值,应对挑战,打造高质量实时音视频技术,解决网络不确定性,适应各种不同设备信号处理算法的发展空间很大。
第二个机遇是API服务,API作为基础设施,提供了很好的辅助作用。
我之所以决定做API服务,先是因为我发现随着智能手机不断渗透,机遇随之浮出水面,整个行业可能也会随之而变。通过对比手机APP和PC时代的桌面软件,我发现有一点不同:在电脑端时代,我们做出来的软件不能去假设电脑自带摄像头,或者自带高质量麦克风;但对于智能手机来说,你完全可以这样既设。
在这个前提下,如果有人能够提供可以简单集成且支持实现相应功能的API,那么应用开发者们就能轻松在其应用中使用实时音视频,也可能会由此创造出很多应用场景。
既然有这样一个新的可能性,作为一个开发者,我自然会希望为我们的客户或消费者创造一些新的、有用的东西。所以最好的方式可能就是通过我们的API服务于开发者。这也是声网的初心。
我们现在已经能看到平台上应用场景不断增加,目前已经增加到100多个应用场景。今年和过去几年的关键应用场景出现在社交、教育、游戏、播客甚至是企业协作、医疗领域,部分物联网设备也开始迅速采用这项技术。
五、如何跨领域发展
1. 如何思考我们的产品路线图?
首先,就像我刚才谈到的,我们肯定会优先考虑开发者的需求。所以这个决定很大程度上取决于开发者们真正想做的东西。截止目前,我们的平台上确实呈现了很多类似社交、游戏和在线教育领域的需求。
以在线教育产品为例,虽然我们的产品可以专门针对传统的基础教育需求,比如学前至高中。但最有趣、最迫切的需求还是来自于非传统在线教育,也就是社交或是休闲教育,我们的技术正在让它们变得更有趣。
针对不同的需求,API的设计需要支持不同角度的实时体验。在我们平台上,在线合作需求量其实并不大,我们更多是支持嵌入式工作流,比如说很多客户希望我们能应用到内网应用程序中,也就是要内置到他们的工作流中。这样他们就可以自动接入通话,就像是身处同一个办公室办公,只要站起来就能交流一样的轻松自然。我们注意到这方面的需求也在不断增长,也更专注于提供这方面的服务。
2. 跨领域、跨地域:在其他领域行业的延伸
基于这些理论,我们的应用可以在多种领域上延伸,比如:
在线问诊:面对新冠肺炎病毒,大家都很害怕,甚至也不敢出门看病,于是有客户利用我们的技术建立了一个在线问诊平台。比如说,之前一些感冒的人会有发烧之类的症状,他们就会开始担心,纠结是不是应该去医院检查。现在他们可以通过App在线看病,快速得到一些建议,比如像这种病只需要多休息、吃些常规药物,就能快速恢复,而另外一种病要慎重对待,要去合适的医院就诊等等。
在线心理医疗:我们在远程医疗领域也有应用场景:对于远程心理服务,我觉得是否支持远程视频其实很关键,心理患者的治疗通常是跟治疗师聊天,而远程心理服务基本上就是通过服务器跟你聊天。患者会觉得这个环境很舒服,很放松,而且很多时候可以就在患者家里进行,所以这样的服务会令人感到更舒适,也更受一些患者的欢迎。
物联网机器人:物联网应用场景方面,其实很多公司会在机器人里内置一些视频聊天功能,这样就能实现跟机器人聊天,或者跟站在机器人前面的人聊天。所以现在很多机器人供应商都在利用我们的技术来实现这个功能。这是一个非常好玩的应用场景,我们在召开开发者大会的时候,也会跟这些机器人玩,非常有趣。
在线教育:我觉得东南亚地区对在线教育的需求也在不断增长,虽然跟美国和中国相比,可能还有点滞后,但是它的增长速度非常快。有时候东南亚也会有一些很有趣的应用场景,比如他们会把实时音视频技术用在宗教场景上,通过我们的平台在线举行一些宗教仪式性聚会。
其他服务:我们其实一直需要研究涌向我们平台的各种需求。首先是要以开发者的兴趣为主,如果我们发现很多开发者希望打造特定的社交应用场景,我们会更多关注应用场景的赋能,也会和开发者们共同去创新。当然,有时候还会关注更根本的东西,比如用户体验质量。所以我们才开发了诸如“水晶球”等工具,让他们能够更直观地了解体验质量,更好地利用我们的技术和服务。
六、实时云互动的未来
1. 实时互动能颠覆更多的垂直领域
事实上实时互动在日常生活里可以有更多应用场景。如果你深入了解我们的现实生活,就会发现现实生活中充满了各种互动,但是我们上网时的互动情形却极为有限,只有少数场景能实现实时互动。但是通过增加实时互动,应用就能轻松实现更自然、高效和更具吸引力的用户体验,能增加用户黏性和参与度,往往能让应用在垂直领域的竞争中脱颖而出。以Peloton为例,它就是一种实时在家锻炼的硬件+视频APP,改变了大家对健身器材的看法,也让人们重新认识了这种技术的强大。
2. 5G、VR在未来是什么样子?
5G网络无疑打开了更多的想象空间,让很多过去不可能实现的事情变得有可能,我们也非常期待它最终的发展。
5G可以让开发者能以更灵活的方式在无线设备上构建新的应用场景,最吸引人的可能会是实现更高保真的视频和音频体验,比如提高视频分辨率和画面质量,在音频沟通或者音频路径互动中添加更多的声道,以此来提高用户体验。
VR技术的发展也是一种新思路,有些公司已经开始利用我们的平台打造非常有吸引力的VR教育。尽管VR教育现在还处于早期发展阶段,我仍然认为这是一种足以改变整个行业的创新。比如用VR搭建一个语言学习课堂,你只要带上VR设备,就会感觉自己置身于以你学习的语言为母语的国家,然后做一些日常的事情,比如在商店买东西,去餐厅点餐或者去酒吧等等,然后你自然而然地就开始通过课堂在线练习这种语言。和老师站在白板前教你相比,这种方式要有趣和自然得多。
3. 5年后,实时互动会如何改变我们的生活?
我们总在畅想着未来,五年后肯定会有更多用户接受、喜欢的应用场景。一些在今天看来很难做到的事情,在未来可能会变得很普通。
就像过去几年,在线教育发展迅速,但还是更集中在大城市、一线城市,但是这个趋势一定会继续向偏远地区扩散,让欠发达地区或国家的学生也能享受到高质量的教学资源。老师不必长途跋涉,学生可以在家里远程上课,这对很多人来说一定会很有用。
再说说医疗场景,现在我们看病主要还是依赖医生们的付出,但是如果我们能让病人不盲目地全都涌向医院,就能大大减轻医生们的负担。比如现在就可以通过视频在线向医生们咨询,哪怕只有50%的人是轻症,医院的看病效率也会提高很多。
实时互动还会改变更多行业,比如保险行业,如果你的车出现一些问题,或者遇到了一个小事故,何必需要专人到场检查?视频通话就能解决所有问题。从消费者到保险公司,效率都会大大提高。我相信这些在未来都会实现。
很多物联网上的应用场景也能让生活更便利。我们发现一个趋势,很多公司都在尝试把视频通话内置到大屏幕电视里,这样用户在出差或者出门在外的时候,也能很方便地通过智能手机连接到客厅电视,随时和孩子联系。所有这些都可能在未来五年内实现,其中很多场景都可能成为平常的生活体验,而不再是新事物。
在我的想象里,随着网络的成熟和万物互联的趋势,再加上有我们这样的技术为所有场景赋能,大家在日常生活中不管想做什么事情,都会有两种方式可供选择。一种是传统方式,也就是在线下的现实世界中完成;另一种是借助VR设备或者其他技术,在线完成所有事情,而且获得与线下类似甚至更棒的体验。线下也许还会有一些物理性限制,但网上世界将会是货真价实的无拘无束。
我最近学到的最印象深刻的一件事,就是专注。少即是多,我觉得通过这些年,我越来越能理解只言片语的建议有多可贵。专注可以无处不在,当然,只要你能深刻地理解它的含义就行了——正如我们数年如一日在实时互动云这件事上的坚持。
*赵斌:声网Agora创始人&CEO,曾任YY首席技术官。
本文来自微信公众号:GGV纪源资本(ID:GGVCapital),作者:赵斌,编辑:张颖,本期内容编译自GGV英文播客《Evolving for the Next Billion》2020年3月期