以“构建网络化、数字化、个性化、终身化的教育体系,建设‘人人皆学、处处能学、时时可学’的学习型社会,培养大批创新人才”为发展方向,贯彻落实教育信息化“十三五”规划总体部署,按照“服务全局、融合创新、深化应用、完善机制”的原则,大力推动“四个提升”和“四个拓展”,充分发挥教育信息化对教育现代化的支撑和引领作用,以优异成绩迎接党的十九大胜利召开。
──教育部办公厅关于印发《2017年教育信息化工作要点》的通知
一切都在数字化,教育行业也不例外。
在今年6月7日高考首天,由学霸君研发的智能教育机器人Aidam和940万全国考生一起参加了数学高考,并在9分47秒内完成了全国文科数学II卷的答题,得分为134分。作为对比,在场的三组高考状元获得了135分的平均分,以一分之差击败了Aidam。
前脚,柯洁和AlphaGo的大战在5月末刚刚结束;后脚,人工智能就踏上了教育的战场。
学霸君创始人张凯磊曾用医学逻辑来评价国内的教育体系:“这是一种神医模式,希望找到一位名师来提高成绩,效果非常差。”
名师的存在是高度合理的,各行各业都有站在山顶的人才,教育行业也不例外。这些顶尖教师无不有着自己的教育方法论和教学知识体系,他们在教学过程中擅于“望、闻、问、切”,了解自己学生的病根和疾病的病理,然后对症下药,直切病灶。
但教育体系化是要有过程的。想像一下把一个下月就要上考场的差等生丢在名师手里,不管名师使出何种解数,也大概率难以一蹴而就。
学霸君做的就是K12教育的数字化。它想实现的,是解除教育资源不均衡的桎梏,让全中国的学生都能得到量身定制的学习教学工具,拥有属于自己的“名师”。
算法的核心是数据
学霸君有三条产品线:面向C端的拍照搜题和1对1教学辅导,以及面向以学校和教学机构为主的B端产品AI学。事实上,正是有了前两者的行为数据积累,AI学才得以真正释放潜力。
数据的原始积累是一个痛苦的过程。技术团队做出第一个OCR原型时,由于是全新的领域,一度陷入数据不够饱满的困境,识别率只有45%左右。但他们最终跃过了这座山丘。
一边,他们到校园门口发传单请学生来问问题,弄来问题后在后台用机器+人工的方式做题,整理题库的同时对数据进行标注。优秀的图像识别引擎需要学习大量经过标注的图像:学霸君的员工们就坐在屋子里没日没夜地盯着屏幕,给一张张千奇百怪的照片做着标注。标注的照片越多,机器学习速度越快,准确率也越高。
另一边,负责技术的同事把超过一个亿的样本切成一个个的训练碎片放在图片库中不断让机器去识别,同时不断地改造识别引擎,进行调优,用不同的网络表达不同细节的图像类属性。一方面增加样本,另一方面提升模型,双管齐下,不断达到精度的提升。
经过18个月的紧张工作后,实现了完全自动化的OCR随着学霸君1.0在2013年9月走出深闺,70%的识别准确率虽然远远谈不上高,却给无数学生带来了当时最为新奇的体验。由于可以帮助学生在没有其他参考的情况下高效完成作业,学霸君在众多QQ群中被广为传播。“拍照搜题”这把星星之火,瞬间燎原。
如今,学霸君的题库里收集了8000多万道题目,识别率超过95%。作为学生党优选的手机端工具型应用,学霸君目前月活跃用户为2000万,累积注册用户超过8000万,累计搜题数超过100亿。大量的学生手写和上传题目图片、各种教辅书籍中的题目库,构成了学霸君的智能机器人的训练数据。据介绍,依靠学霸君的产品端目前的月活量,每月可以产生100亿张左右的题目图片上传。而其中,无论是拍照,还是学生手写题目,通过图像识别系统识别,所有题目都将被记录、收集、标记。在学霸君的题库中,每一道题目均记录了其答案、解析和不同的解题过程。在此基础上,学霸君Ai学不断进行自动解题训练。
把学生和知识点数字化
拍照搜题给了学生解题的出口,也给了学霸君向更深处挖掘的入口。
在学霸君看来,学生对一道题使用拍照搜题,基本上表明这个学生在这道题上能力的缺失,系统内部就会进行标注。凭借无数题目的数据沉淀,学霸君对题目进行难度划线,题库里的每一道题都被设定了分布在0到1的难度曲线。在数据的支撑下,学霸君可以对每个学生做题的对错进行分析,并预测他在下一题的表现。据介绍,目前学霸君预测学生做对或做错一道题的精准度可以达到70%。
在学霸君系统内部有着无数只有机器才能理解的标签,所有会被重复利用的部分以一个个颗粒的形式存在,这些颗粒间有着神经元一般广而密切的联系。学霸君使用树状结构来描绘知识图谱,由于颗粒足够小,所有的出题套路被赤裸裸地呈现出来,也为自动解题打下了基础。
当把每一类型题的所有题目放在一起时,往往会发现依据相应的题目模式,一些题光看数字就可以做出来。在学霸君首席科学家陈锐锋看来,做自动解题就是要沉淀一个足够量的题库,而且一定要能高频次覆盖中国90%多的出题模式。
在这个基础上,学霸君可以分析出一道题里面蕴含哪些知识点,一道题和另外的题有哪些关联……解题成为了可工程化的问题,一切都可以用数据去表达。
这么一来,学霸君的系统就可以完整记录下学生做题过程中的行为数据和结果数据,这些数据被采集到电脑上,对学生的个人知识水平进行全面、精准的评估。当把题目的难度曲线、学生行为的序列和知识图谱结合起来的时候,学霸君Ai学就可以像名师一样,根据每个学生的知识掌握情况做相应的题目推荐,进行针对性的训练。
据了解,高中大概有3529个考点,平均每个做三四道题就够了,总共有1万多道题目,但是绝大部分学生面对的练习题有三四万道,75%的宝贵时间都被浪费了。
这75%的时间,如果能用来多学一门艺术该多好?
让所有的老师都变成名师
面向B端的产品Ai学,主体是学霸君自主研发的智慧教育平台、智能纸笔套装以及定制的平板电脑。通过智能笔前端的高速摄像头随时捕捉笔尖的运动轨迹,同时压力传感器将数据信息传回数据处理器,通过蓝牙将数据传输到接收终端。传输的信息包括纸张类型、来源、页码、位置、笔迹坐标、运动轨迹、笔尖压力、笔画顺序、运笔时间、运笔速度等实时信息。
通过这套智能书写系统,学霸君做到了在不改变原有书写习惯的基础上掌握了学生作业的全部数据,学生的每一个答案、每一个细节都被记录下来。大量的班级数据形成了班级图谱,图谱里可以提供班级的整体状况、某个学生对单个知识点的掌握程度、某道题的错误率和答错的人等等,几乎细化到了教师可以管理的任何单元。这样的数据精细化管理彻底解放了教师的教学生产力,分析试题时指哪打哪成为现实,不用在发问“还有哪些题不会”中获得迷人的沉默。
“高考机器人”要做的不是代替学生去参加高考,Ai学也不是取代老师教育学生。积极意义在于,学霸君的人工智能教育尝试的确给学生和老师带来了解放的空间。
对教师来说,三十年如一日的教学模式将成为过去,精细化管理的时代到来。学霸君的作业自动批改、自动阅卷、数据管理可以把老师从重复枯燥的工作中解放出来,把更多的精力投放到关注学生的薄弱环节上,进行更精确的定向打击,完成从教师向名师的进化;
对学生来说,千人千面的作业体系会让学生的自我责任感更强,不需要和同学比正确率,也没有作业可抄,全程数据监控的作业过程让学生必须认真对待,真正直面自己的薄弱知识环节。作业时间的监控,一定程度上缓减了很多学生的作业拖延症。同一个班级里,学生的智力水平或许差异不大,但因为知识结构和积累问题导致了成绩和解题能力的分层。过于标准化的教学既是差生的噩梦,也是尖子生的瓶颈。
在北京,很多家长选择买“窝棚”大的学区房,他们买的并不是房,而是优质的教育;而在资源远远不如一二线城市的广袤中国大地上,很多地方连获得教学体系完整的教育都不容易,更谈不上名师教学。
无数从农村走进城市生活的人都曾真切地感受到教育的不平等带来的认知差异,这份差异常常需要多年才能抹平。如果说互联网让信息不再成为城市之间的鸿沟,学霸君和它所依靠的AI则想成为教育行业的那座桥。