十五年前,2001年的时候研究院决定成立个新的Graphics Group,当时起名叫做Internet Graphics(互联网图形)。很多人见到我都问,什么是Internet Graphics?其实我们也不知道
十五年前,2001年的时候研究院决定成立个新的Graphics Group,当时起名叫做Internet Graphics(互联网图形)。
很多人见到我都问,什么是Internet Graphics?其实我们也不知道。2001年的时候我们所有的组员集中一起做了第一个项目,叫Game download and Play。这个项目主要想做的是,我们把互联网图形数据做一个压缩,让大家不用等那么长的时间。通过很快地下载一部分数据到本地之后,马上就可以玩游戏了。这个项目可以说是非常成功,在这之后我们就开始做Siggraph了。转眼十年就过去了,我开始负责图形组。我重新问自己,到底什么是互联网图形?什么是Internet Graphics?通过对身边进行观察,我发现:
Internet与文字结合时效果很好:出现了网络文学、微博、Wikpedia等
Internet与图片结合时效果也很好:出现了Instagram、美图秀秀、500px等
Internet与视频结合时效果也很好:出现了Youtube、爱奇艺、网络直播、网红等
但是回到Graphics,好像十年过去什么都没有发生,到底出了什么问题呢?我做了一些研究,也想了下,有写粗浅的想法分享给大家。
风口上的猪想要飞起来,不是每头都可以,要满足两个条件。
第一、Everyone
内容最好每个人都能产生,都能创造。当你有互联网的时候,大家互相进行交流,内容就会有海量的增长。
目前产生一个3D的内容、Graphic的内容对于普通用户来说还是十分难的任务。即使是艺术家,也需要好几年training才能做好这些软件、模型。
我们也确实有一些设备来帮助大家做一些内容的捕捉,比如说3d Scanner等。但是这些设备基本上都是很昂贵的,而且还需要专门的实验室,普通的用户还是享受不到的。
第二、Everywhere
随着移动平台的发展,如果你的内容产生、享受、消费能扩展到每一个平台上,让大家在任何一个地方,都能进行消费。这个时候再加上互联网,就是真的飞起来了。
Everywhere方面就更悲惨了,图形学发展这么多年,所有的媒体内容都是通过一个Screen传递给大家的,某种意义上来说,我们的内容和一个视频video是没有太大区别的。
Screen在Real World和Witch World中间有个明确的界线,我们还需要鼠标、键盘、gamepad等外部设备来进行交互,这些交互和我们在自然世界中的真实三维交互是非常不同的。
现状:
在过去,即使到现在为止,我们的Graphic所有内容的创造,基本和互联网关系不大。基本的模式还是这样的:
有一些artists,他们组建了一个公司。经过很艰苦的奋斗,做了一些游戏、电影。把这些东西传递给市场上,有成千上万的消费者进行消费,还是一个传统的模式。
愿景:
基于这个想法,我们提出了一个Vision(愿景)
我们希望做一些图形学的工具、系统,能够帮助每一个人方便地产生可观看和分享的三维图形学的内容。
同时我们希望能在自然世界和虚拟世界之间,提供一些更自然的interface和交互方式。
另外在可视和一些不可视的抽象信息之间,提供一些自然的interface,做一些Visualization相关的工作。
在过去的五年中,我们也做了很多的研究,在各个方面做了很多的探索。慢慢地我们意识到,也许intelligence智能的方式可能是很好的解决方案。
有如下这些原因:
我们已经有了一些昂贵的设备,这些设备帮助我们捕捉到了大量高质量的数据。
我们有一些比较便宜的设备(比如我们现在很多人都有的摄像机),这些设备可以提供一些初始的input数据,这样就不用从无到有了。
特别是,机器学习方面的一些技术上的进展,可以让我们把一些技术用到图形学的一些工作里了。
我们提出来,也许一个比较好的解决方案是:
通过一些比较cheap devices(便宜的设备)加上一些Smart Algorithms,可能在某些时候需要一些sparse user input来产生一些三维的内容。
这里提到的Smart Algorithms,我们希望它能做两件事:
Smart Algorithms能够意识到几何数据和图形数据中的一些intrinsic(固有)的property(属性)来帮助我们产生内容。
另外一方面,我们可以用一些机器学习技术,来进行end-to-end端对端的学习。在input和output建立一些relationship和mapping,来做这样的事情。
3D Object Digitization
下面用我们研究的一个很小的方向,3D Object Digitization来做一个案例,看看我们是怎么做的。
3D object digitization:基本目标是有一个真实世界的三维物体,希望把它很完美地扫描进虚拟世界中。
在这里讲到的不仅仅是一个三维物体的几何形状,还有它所有的材质信息。
因为光有了几何信息之后,我们可能知道这个物体的形状是什么。但是物体具体是什么?只有当我们知道了材质(纹理等)、表面反射属性之后,我们才能在三维世界把它栩栩如生的体现出来。
大家可以想象这样一个工具对VR、AR内容的产生以及虚拟购物是多么的重要。
现在我们回想传统、现有的3D的解决方案是什么?
首先用一些设备扫描它的三维形状,但是在大部分情况下,所得到的三维形状都是非常糟糕的,有各种各样的Noise,很多还缺了。所有我们需要很多的人工去做一个去噪的工作,才能让几个形状变得比较完美。
捕捉材质部分,这个就更麻烦了,我们需要把它挪到专业的实验室里去。
用非常昂贵的设备,来捕捉它在各种光照、各种视点下它的外观。有了这个之后呢我们才能真正产生出一个虚拟的物体出来,可以再进行使用了。
可以看到,在这个过程中有很多障碍:
首先,在去噪方面需要很多的手工工作,而且需要艺术家来做这个工作。
其次,我们的设备都很昂贵,特别是做材质捕捉很昂贵。
另外,流水线很长。我们要先捕捉几何,在用另外的设备捕捉材质,这两个的数据要融合到一起很麻烦。
现在可以来看下用一些Intelligence的Algorithm可以帮我们做些什么东西?
我们想做的事情很简单:
一个是,假设对一个真实的物体我们做了一个3D的扫描。这个物体上有很多噪音,坑坑洼洼的,我们想全自动地把上面的噪音全部除去。在去除噪音的时候,我们同时希望一些好的东西,比如几何等一些小的细节能保留下来,不要都去掉了。
另一个是对不同设备扫描的数据,这个算法能同时一招就处理掉。
为了做这件事情,我们做了一个learning(学习)的algorithm(算法):
首先捕捉了一些ground truth的东西,扫描了一些带噪音的东西。在这两者之间,我们学习了一个mapping,有个mapping之后我们可以在runtime的时候给定一个match就能实现。
我们很惊喜的发现,这个算法在用户使用的时候是全自动的。只需给一个match,就全自动给你做好了,不需要再去tune任何的参数。
第二个是我们的算法第一次超过了在所有不同的输入上,它的accuracy准确度以及重构的质量,第一次超过了所有已知的算法,同时我们的算法还要比所有已知的算法都要快。
我们很快会把Source Code源代码以及Data数据分享给大家,大家每个人都可以尝试继续在上面进行研究。
总结:
过去几年中,我们在很多方向上都做了努力。我们逐渐认识到,也许智能方法(Smart Algorithm)是能让Graphics Contents for Everyone实现的一个更好地解决方案。
在这里也要分享一些过程中得到经验,或者说是教训。
第一、Open-minded
要勇敢地借鉴各个方面的一些算法来做我们自己的东西。
第二、Concentrated
Open-minded像是一本很厉害的武功―吸星大法,可以把别人的东西全部吸过来。但是光有这个还不行,还要有本易筋经,把东西化为自己的,解决自己本身的问题。
第三、End-to-End
很多时候我们发了一篇Paper就感觉很满足了,但是现在对我来说发Paper只是表达的一个手段,更重要的是想把问题真正的解决掉,给用户提供一个真正的End-to-End的一个解决方法。
声明:本文内容来源自网络,文字、图片等素材版权属于原作者,平台转载素材出于传递更多信息,文章内容仅供参考与学习,切勿作为商业目的使用。如果侵害了您的合法权益,请您及时与我们联系,我们会在第一时间进行处理!我们尊重版权,也致力于保护版权,站搜网感谢您的分享!