所问数据颜鹏:我们技术全球第一 在做中国第一家严格意义上的大数据公司

彭彦,1984年出生于山东。该数据的创始人兼首席执行官,美国北达科他州大学的计算机博士,曾是3M公司的高级研究科学家,负责海量数据的建模和分布式计算。去年12月6日,彭彦正式回到中国,与他的3M同事丁盛超一起创建了被问及的数据。他致力于帮助企业通过世界顶尖的智能预测算法激活内部数据价值,真正实现数据驱动的决策。2016年初,从九河风险投资天使轮投资获得的数据。

“你知道得越多,这件事就越紧迫”

彭彦花了两年时间准备,从他在3M公司当高级研究科学家时开始创业的想法到12月6日回家,当时他觉得这件事“真的不能再等了”。

这也符合投资者第一次见到他时的印象:“渴望做事,放弃等待绿卡,让妻子带着8个月大的孩子回老家,直接在北京租房子开始工作。”

彭彦仍然记得许多这样的时刻:2014年12月,ThreatStream(一家著名的加州网络安全公司,从聪明的角度应对网络安全威胁)宣布完成了2200万美元的b轮融资。“当时,我和我的同事还处于发展阶段。听到这个消息后,我觉得我已经掌握了可以商业化的机器学习核心技术,但我还没有进入海洋。我想我必须快点做。”2015年10月,艾弗斯特林成功应用于预测分析,在第二轮融资中赢得6500万美元。这些都是人工智能在商业领域创造实用价值的典型案例。他还记得,在15年的上半年,当参加各种供应链会议时,每个人仍在谈论概念,但当他在下半年回来时,他看到了真实的案例和演示,“但我知道他们不如我们做得好。”

除了他对技术壁垒的绝对信心,这种“迫不及待”也来自于他对市场的调查。在接触大数据六年后,作为3M公司的高级科学家两年,彭彦回到中国进行了三次检查。线上和线下零售的销售环节是什么,物流是如何运作的,你是否需要预测,有多少人为干扰,订单的议价能力掌握在谁手中,哪些行业易于标准化,哪些行业需要深度定制。这些都是创业前必须明确检查的问题。

他深刻认识到,在美国,数据驱动的决策已经相对成熟,大数据行业的需求已经从计算转向应用场景,应用场景的接入和对接能力已经开始接管产品的核心竞争力。然而,相比之下,中国仍然是一个“以经验为导向”的社会。后端供应链与前端销售脱节。产量完全取决于过去的经验。它不能卖完去粉碎仓库。成本负担越来越重。物流消耗了大量的企业利润。此外,企业越大,风险就越高。不恰当的决策甚至会给企业带来毁灭性的打击。以服装业为例,整个中国服装业拥有5000亿元的库存,这意味着如果一件服装现在不生产,它可以在市场上销售五年。

虽然中国的大多数公司都意识到了这一点,但他们也明白进化应该越早越好,但是要推翻最初的“仍然足够”的技术基础设施系统并不容易,从粗略的“拍拍脑袋”到从上到下建立一个真正的数据驱动的文化。所有这些都是因为在中国没有人能够实现足够精确的数据挖掘和预测。大型企业仍然会小心翼翼地让年轻的初创企业处理基础设施中如此重要的部分。

准确的预测正是所要求数据的核心竞争力。第一个要求数据的客户是因曼。“当时,我们只得到30,000个SKU样本数据进行初步预测。最终结果表明,我们预测的每个SKU的平均误差在36.3和36.7之间。这一结果的准确性确实消除了客户的担忧。”

今年三月,彭彦甚至忘记了他的生日,但他仍然记得另一个数字,三分之二。“是吗

“严格来说,中国所谓的大数据公司是云计算公司,大多数人都在猜测概念,而不是做大数据。”谈到中国大数据的现状,彭彦得出了这个结论。“因为大数据的最终目标是预测未来。”随着越来越多的数据被记录和整理,未来的预测和分析必将成为各个领域的关键技术。

他提到目前中国的大数据企业正在做部分数据收集和清理,部分数据可视化,它涉及大数据核心价值的中间端,即如何通过模型和算法实现信息挖掘和有效预测。中国还没有人真正做到这一点,“因为这部分技术壁垒是最高的,也是最难实现的。”这正是彭彦选择回家的原因。“我有信心,我们目前的技术能够比类似的解决方案实现更高的预测精度,是世界上第一个。”

所要求的预测算法具有自适应和自学习两个特征:所谓自适应是指无需任何人工干预就可以自动选择最优算法进行预测;所谓自学习(self learning)是指基于先前预测的算法的连续自学习和自优化。用户使用产品的时间越长,准确率就越高。此外,被问团队还开发了世界上第一个深度推荐算法(Deep Replacement algorithm),对产品进行深度推荐,并深入挖掘销售影响因素,这可以帮助传统零售商、制造商和电子商务网站企业揭示数据背后的隐藏规律,提前预测市场变化,做出相应的资源规划,从而大大有效地降低运营成本。在金融行业、医疗保健、政府事务等方面,该团队在数据挖掘、分析和系统部署方面也有着极其丰富的经验,并且正在使用其核心预测算法来监控和预测市政府某部门的经济运行分析。

要求的切入点是解决供应链管理中的核心库存问题,帮助企业制造爆炸性产品。“以服装企业为例,我们想知道下个月和明年他们会卖出多少,为什么有些服装会卖成爆炸性的模型,而另一些却卖得不好。从数据科学的角度来看,我们可以告诉你所有你想知道的信息。”实现方法是根据企业过去的销售历史和实时市场情况,在供应链端和销售端建模,将外部数据(如经济数据和天气数据)与内部数据相结合,实现准确预测。

“很多问题可以通过技术来解决。如果你真的能用技术为企业和行业创造价值,你一定会成功。”彭彦说。

team:从2人到11人,这个团队在12月只有两位创始人,现在已经扩展到11人,手头有4个项目。此外,还有许多来到中国的客户,包括已经在排队的a股上市公司。彭彦说他的心“越来越底了”

三年前,当彭彦博士毕业时,他面前的提议之一是去联邦调查局继续他的数据挖掘工作,这与他在博士研究期间与导师一起进行的反恐项目密切相关。另一个是去3M公司担任高级研究科学家,负责彭彦选择的海量数据的建模和分布式计算。

在3M,彭彦遇到了首席技术官丁盛超,他是被他的联合创始人邀请的。丁盛超是美国加州大学圣地亚哥分校的博士后研究员,中国科学院的计算机科学博士,1999年是武汉大学的顶尖科学学者。他在预测数据分析和深入学习算法方面拥有极其丰富的经验。“当时,这个小组只有三个中国人。我们聊得很好。我们都想做自己的事情,对自己的所作所为有更多的控制权。盛超是科学家,我更像是工程师。”在美国工作的业余时间,这两个人开始利用他们以前的研究经验来开发精确预测的模型和算法。“所有的心血都在技术方面。我们必须先做东西。”

2015年7月25日,彭彦送来一圈这样的朋友:“早上4: 40通过!B2B时代数据时代数据挖掘时代!”12月6日,彭彦回到了以前的国家

上周末加班后,彭彦组织每个人出去玩一次,吃一次,唱一次,“我发现这些技术房子实际上相当多才多艺。一位工程师唱粤语歌曲唱得非常好!”那天回来后,严彭发在一群朋友中写道:“让我们不辜负我们的理想,成为中国最好的大数据公司。”

“通过这些数据,你真的可以看到很多别人看不到的东西”

回到中国创业半年后,彭彦一天只睡三四个小时,体重减轻了10多公斤。

久和是彭彦在国内遇到的第一家投资机构。两次见面后,他照了张相。“在谈到寻找投资时,我一直在谈论技术,因为他们都有技术背景,骨子里都是工程师。通信成本非常低。”彭彦说,虽然已经有了开发的模型和算法,但在回家之前,他已经做好了从融资到做生意的最坏打算。“比预期的要顺利。在合同正式签署之前,500,000笔贷款用于注册公司、购买服务器、租用办公室.一个接一个。”

早期的顾客都是一个接一个去南方的彭彦人。回到中国三周后,他去了八个城市。这也是投资者看中彭彦的原因。“在经营客户的过程中,我们可以找到制造产品的方向和感觉,降低产品的试错成本。”作为一个有纯技术壁垒的公司的首席执行官,他不仅应该有黑客的头脑,对数据有好奇心,还应该对业务有热情。他是一个能与人打交道和解决问题的人。彭彦仍然记得医生去了一家初创公司,帮助他在第二年制作最受欢迎的虚拟现实。这项技术非常优秀,但公司最终还是倒闭了。"因为我们是在个人电脑方面做的."这一经历给出生于技术背景的彭彦上了一课:“技术不再是好东西,也不能脱离市场。”

在美国的六年里,彭彦去看了两部电影。“我记得其中一个是《变形金刚》。我妻子说他们很快就要回中国了。我们去看电影吧。”他选择把孩子和家人留在家乡,独自在北京努力工作。彭彦开玩笑说,“如果你不回去,我儿子就不会认识我。”然而,他经常说,选择创业是一个方便的问题,是一个推动命运的问题,是一个时间、地点和人的问题。

“不创业你会做什么?”

“如果我不在中国创业,我会在美国创业。”

他提到在大学时,他写了很多诗,并想把它们送给方文卿。从骨子里,彭彦仍然认为自己是一名工程师。他经常回忆起他在美国学习的无数个夜晚,晚上他回家。突然,他想起了什么,晚上2点或3点骑马回到实验室去换衣服。“你知道吗?这特别有趣。通过这些数据,你可以真正看到许多别人看不到的东西。”

youtube.com