有一位被几人簇拥着,很有书卷气质的男子举起了手,他动作优雅,但说出来的话语却充满了尖酸刻薄的味道。
“要不然,还是请李晓军教授先说说吧,毕竟李教授曾经宣称他的拟合准确率达到了百分之一百,后来不知道为什么,却又突然撤回了这一声明。”
台上的人大多都哄笑了起来,台下的人却只安静地看戏。
在这个会场中,李晓军是第二个知道王栋这副面孔后真实身份的人。
因为前不久,王栋刚刚顶着这副面孔跟他私下里见过面。
而让台上的李晓军涨红了脸庞的这番来自同行的嘲讽,真正应该背锅的恰恰是王栋本人。
事情是这样的。
经过漫长而艰辛的努力,王栋终于在破解这台神秘机器的软件架构方面取得了重大突破。
他找到了一个非常关键的模块。
那是一个底层模块。
机器要处理的所有数据,都需要先经过这个底层模块进行预处理,然后才会被送往上层各个模块做进一步分析。
他至今还没有发现例外的情况,而且这个模块的处理结果非常有意思。
它能把无论什么格式的数据都映射为一些固定长度的向量。
这些向量的维度是固定的,但向量的个数并不固定。
比如输入一段语音可能会输出两根向量,而输入另一段语音就可能输出三根向量。
王栋发现,无论是语音、图像或其它有结构无结构数据,无论何时输入,同一个输入映射得到的输出向量集合都是一模一样的。
无论是向量的个数,还是向量的内容。
如果对输入数据加一些微小的噪声,只要没有到影响其内容的地步,它映射出来的输出向量也不会发生改变。
反之,如果改变了部分属性,比如同样的语音内容但换了一个不同的说话人,或者同样一只狗的照片但换了一个拍摄地点,输出向量的集合中,总有些向量是不变的,代表未改变的那部分内容,但也总有一些向量发生了改变。
在进行了大量的数据分析后,王栋终于确认,这不是一个简单的数据预处理模块,而是一个智能解译模块。
它能对任意形式的数据进行解译,把数据中承载的所有信息都识别理解出来,然后用向量的形式表示出来。
也就说,这些向量所构成的表示空间,就是机器所理解的世界。
通过这个智能解译模块所得到的,是在其理解的世界中的一种语义表示。
越相近的事物,在这个语义表示空间里,距离总是越接近的。
比如同一个人的两段内容相似的语音,输出的每个向量要不然完全相同,要不然就非常相似。
王栋曾经尝试过,基于这个模块得到的语义表示,对计算机领域各种分类任务,利用地球上已有的机器学习算法,几乎都能达到了百分之一百的识别效果。
所以,这个底层模块才是这台神秘机器的智能核心。
只要破解了它,掌握了它,在人工智能方面,人类就能达到与机器同等的技术水平。
王栋猜测,支撑这个智能解译模块的很可能就是一个通用的预训练模型,或者类似的东西。
通过它就能够实现从物理层级的世界到概念层级的世界的跨越。