人工智能真TM牛逼！法律AI能否取代律师、法官？法考领域如何突破？

10个月前更新 SanS三石

59 0 0

说在前面：

很抱歉，今天的文章字数可能又又又超标了！憋了一个春节，想说的话实在太多了。非常想跟你们聊聊，关于AI人工智能在法律/法考领域的应用，它的现在和将来！

这是我退休前最想干的事情，正在路上，已有进度，新的突破！如果你打算/正在备战法考，希望这篇文章能够带给你信心和方向！请相信，人工智能真TM牛逼！

ps：我在文末给你们准备了各种礼物，记得领取哈！！！

2022年最后一个季度，由于考试延期，觉晓的算法、数据、教研团队在工作之余参加了一个全国权威的法律AI人工智能比赛（CAIL 2022司法考试）。

我们提交的AI模型，在每个阶段和总榜均荣获第一！险胜北京大学团队，在此也恭喜其他上榜团队！

其实法律的AI人工智能，对我们现生活的影响远远超乎你的想象！

说远一些，AI可以取代很多律师、法官的工作（我不是说取代这个职业，是取代这个职业很多工作，和里面不专业的一大批人），这可不是危言耸听或者幻想，是已经在眼前的东西。

比如前两个月国外发布的一个最新、最先进的AI机器人“ChatGPT”（有马斯克、微软等投资，上线可以免费用，且支持中文），和它对话问答，几乎和真人对话差不多，甚至比大部分人类都厉害，我用了后深受震撼。

ps：你之前接触的都是一些伪AI，什么siri，小度，天猫精灵都是“傻子”，你去用用ChatGPT，你就知道什么叫牛逼，你就知道未来AI有多恐怖！

说近一些，而且你已经在使用的如AI智能批改主观题，还有我们过考模型里的知识图谱、分数预测等模型，都可以帮助你节约很多时间，而且能更稳的过线。

既然AI人工智能这么牛逼，那么应用到法律上方面（或者说法考方面），又能带来哪些革命性的改变呢？

什么是“CAIL 2022司法考试”？

首先，我们先介绍下这个法律AI比赛，让你了解，法律AI可以干什么！

比赛全称叫“中国法律智能技术测评（Challenge of Ai in Law，CAIL）”。

官网地址（可查看觉晓的比赛成绩）：

http://cail.cipsc.org.cn/task_summit.html?raceID=0&cail_tag=2022

比赛的指导和主办单位是最高人民法院、中国中文信息学会等官方机构。

承办主要是：清华大学、北京大学、哈尔滨工业大学、中科院、复旦大学、人民大学等名校的法律或人工智能的研究所和学院，以及科大讯飞等人工智能方面领先的的企业。

负责测评的都是国内权威专家学者，甚至有在其领域内泰山北斗存在的大佬，如刘知远，车万翔、韩先培等

这个比赛，已经办了5年，共有近5000支队伍参赛，包括很多知名高校（如北大、清华等），还有一些法律、金融方面有人工智能团队的企业，以及一些法律和技术爱好者，是中国法律人工智能届很权威的比赛。

向右滑动查看更多图片>>

整个比赛，分为8个方向测评，分别是：司法考试（法考）、事件检测、文书校对、类案检索、涉法舆情摘要、论辩理解、信息抽取、可解释类案匹配。

选这8个方向的意思就是：在法律领域，这几个方向可以进行AI的探索，探索成功，这个部分的工作会被基本取代。

这几个方向，最难的其实是“司法考试”方向！是的，你没听错，最难的是司法考试方向，因为它其实就是智能法官的基本雏形，需要用到很多综合能力。

其实，法官的核心工作就是判案，把他的思维拆解后，大致是：

1. 查明案件事实（这块主要是证据的收集、质证、认定，人工智能没什么帮助）。

2. 听和读一堆信息（起诉书、答辩状等），梳理清楚案件的关键点【信息抽取、辩论理解方向】。

3. 找一些之前类似的案件，看看怎么判的【可解释类案匹配、类案检索方向】。

4. 给出判决结论，此处会用到法律知识、法条、以及前面的信息抽取和类案，而且还要得出正确的结论，如定罪要正确，判决谁承担责任要正确【司法考试方向】。

5. 书写判决书，写完校对一下，别有错和前后矛盾【文书校对】。

6. 最后就是法院还要做的，看看今年公民关注的是什么，哪些判决有问题，有哪些事件没有法律或不太适当，后面好出台新的司法解释，这块类似于搜索和摘要【事件检测、涉法舆情摘要】。

ps：律师的核心工作也和法官差不多，也都会用到上面的几个方向，这几个方向完成后，可以取代绝大部分律师的基础工作，80%的时间可以得到解放。

为什么“司法考试（法考）”

是最难的赛道？

其实就在于，它需要综合运用法律知识，识别案情，通过大小前提对照，得出正确结论。而其他方向，大部分是一些信息（内容）的收集、识别，摘要，不需要综合的判断和得出结论。

司法考试（法考）方向的测试中，就有解答题目这一块，这块的题目都很灵活的案例题，测试题库有上万道，要求提交的AI模型能做对这些题，试举一道样题：

甲为某村委会主任，利用职务之便将该村土地征用费中的50万元单独存人H银行办事处，定期2年。次日，甲伪造村委会证明，用该50万元定期存单作为质押，在H银行办事处办理个人质押贷款手续，质押贷款40万元，用于个人经营活动，无法归还。对甲的行为下列说法正确的是？

A．构成挪用公款罪

B．构成挪用资金罪

C．构成贷款诈骗罪

D．犯罪金额50万元

这题要想通过AI的方式做对，这个AI模型要能实现：

1.识别题目的关键信息【AI要能理解这些文字】

说明：理解这一步其实很难，如果无法理解题目，那后续一切都没办法进行，机器第一步连断词可能都成问题。如一个学校的食堂标语“欢迎新老师生前来就餐”，如果断错，就会以为”新老师“是一个词，其实是“新/老的师生”。更别说那么多法律专业名词，如，法院院长、国有工厂厂长，高校校长，中石化经理等要理解这些词的意思，并且能知道这些都是国家工作人员，这对于AI是个很有难度的挑战，AI必须有丰富的词库，而且要能理解这些词的关联，出现词库里没有的词，也要能猜想到关联性最大的。

2.这些信息主要涉及的法条、知识点什么？【这块需要有法律知识的数据库，AI要能在自己知识数据库里找到和题目案情有关联的知识】

说明：为了让模型有丰富的法律背景知识。觉晓团队使用大量的法律领域的文本数据（法律法规、教材、题库、法律文书等）对通用领域的Roberta模型做了二次预训练 (Domain Adaption Pre-training)。

3.什么是挪用公款罪、什么是挪用资金罪、什么是贷款诈骗罪、以及这三种罪之间有什么区别？【需要AI能辨析这些相似的知识点和罪名，找出和题目匹配度最高的来分析】

说明：AI模型不同于在题库中检索相关题目，找答案；AI模型可以处理新的问题（历史题库没有的新题也可以解答），可以原创回答。

4.要有数据（题库样本）来训练AI模型，让模型知道哪些做对了，哪些做错了。

说明：这里训练模型要运用到很多前沿技术，觉晓团队就用到了二次预训练、Roberta、迁移学习、数据增强（EDA，R-DROP）、对抗训练（FGM）、注意力机制（cross attention）、阅读理解技术、BM25等。

所以，要想拿下司法考试（法考）方向第一名，着实不易，需要很多积累！

觉晓会用这些AI技术干啥？

为什么觉晓一个搞法考培训的还要有个AI团队？下面是觉晓AI团队的发展历程，以及我们能为考生做哪些事：

一、AI智能批改阶段（已完成）

一开始，由于2018年法考改革，主观题单独考，机考；而众所周知，主观题要想过线，核心就是要练足够的案例！不然听再多课也没用！

我们安排班上的考生练案例，每个考生练习量很少，每个科目就做5个题不到，他们反馈，主要是练习了没有批改，不知道对错，没动力练习那么多，只是再考前找找感觉。

然后我们开始人工批改，一个我这种水平的老师，熟悉后大约5-10分钟批改一个题。我一天批5小时眼睛和脑子都很累了，1天大约也就能批改40题，仅仅能满足一个40人内部班，1天1个考生就练习1题的量（1天就练1题，是远远达不到过线的要求），而且类似我这个水平的人，来天天批改，几乎招不到（过了法考+研究生+专业还好，不去做律师啥的，天天来给你批改题目？）。

所以人工批改这条路注定行不通，我们就开始攻克AI智能批改，训练AI模型，招聘AI的团队，算法，数据，标注，教研等。

目前我们AI批改已经上线5年了，2年之前就没怎么迭代了，只是做一些优化（团队抽出来做“过考模型”项目），虽然无法替代真人老师批改，但效率和准确度还是很高的。觉晓主观题题库的丰富度、批改准确度肯定是业界第一（不服来战），基本可以满足考生需求。

在主观题练习的高峰期，每天有十多万考生在我们系统上答题（几乎占到全国主观题考生的70%），每天批改几十万题，而且我们上线批改后，跟内部班考生的主观题练习量翻了4倍，很多考生愿意答题了，看到分数进步有成就感！

但AI很烧钱。首先，AI团队工资很高，觉晓工资最高的部门就是算法，即使才毕业2年的，月薪都在3万+，算上五险一金，税，年终奖，基本每个人都在每个月5万以上，更别说其他配合的部门了，如编校的教研团队。其次，AI的服务器很贵，租（不是买）一台每年要30多万，我们目前租了10多台。最后，这些团队都没考核，全靠自觉，而且AI比较前沿不一定会成功，所以这些钱花了能不能回来都是一个问号！

所以，我们题库第二年开始收费，而且还不便宜（因为服务器很贵，每批一题，我们都要给服务器那边交钱，所以没办法降价），但买的人还很多，比我们便宜些的资料卖的还好，是我们主观题卖的最好的产品，靠题库和AI批改的收入，基本可以养活团队，盈亏平衡。

二、过考模型阶段（正在进行中）

AI批改做完后，AI团队就要满足我的一个心愿，我也把它作为我在法考界退休前最后一个项目，搞完就退休，那就是“过考模型”！

这源于，每年考完后，一堆没过线的考生问我的两个灵魂拷问：

1. 四金，我很努力了，为什么没过线？（有些人，甚至为了法考，把工作都辞了；备考期间没怎么管孩子家庭，甚至有人还推迟婚期和备孕计划，但还是没考过！）

2. 四金，明年我到底该怎么办？（有些人甚至考了三年，七年，还是没考过）

我之前的回答，都是很笼统的，从惰性、理解（听课）、刷题、记忆方面找原因（大部分考生没过是因为刷题和记忆有问题，也有少部分是非法本或理解能力差一些，理解就有问题），做一些方法论方面的指导，但很笼统，很不细致，所有人都差不多！

甚至有些人题也刷了，背也背了，还是没过，我就懵逼了，不知道怎么帮助他们！

于是，我找AI团队，我要实现一个极具有挑战性的项目，那就是建立一个AI模型，让这个模型指导学生，只要我按照你的模型达标就能稳过！这个模型的逻辑和实现阶段如下：

1.利用觉晓APP沉淀多年的大数据

这些数据有不同分数段考生，过线的，没过线的，高分，低分的，大概有20多万全程学习的数据，还有上百万只有刷题记录的数据，分析数据，找出过线的核心原因，关键数据指标。

这个21年底已经完成，也做成了“过线数据分析报告”公开给大家看过：

ps：以上是2021年的数据分析报告，2022的等考完主观题，我们也会出一份，到时候会更细，因为有知识图谱的加持。

2.几万维度建模，进行细致对照

我们目前有如下维度：

1）学习习惯和行为相关维度【已完成】

如每天学几小时，多久开始备考过线比较稳？总的过线要投入多少时间？

连续学还是间隔学效果好？如集中短期大量刷题，和坚持每天刷题差异？

这块，可以在上面提到的”数据分析报告“查阅整体目标和各个阶段目标；同时在APP“考路里”界面实时监测你的数据和往年过线考生、高分考生数据对比。

通过我们测算发现，在系统上每天学2.5小时以上就比较稳了，其实过线的人主要还是长期坚持，不放弃，并不是有几倍的努力，很多的时间投入。

向右滑动查看更多图片>>

2）考试规律维度【已完成，在觉晓教学后台】

法考有没有规律？有没有必考点？必考点占每年试卷多少分值？只掌握这些是否能过线？

哪些考点的题目比较难（后台正确率低）？哪些考点几乎都是考简单的题目？

我们拆了近2000个考点，收集了20多年真题，把历年真题每个选项标注了考点，统计了考察规律，发现其实法考很有规律，每年固定的必考点、常考点！偏的难的确实每年都有，但占比不超过10%。

最后又把考点分为：A（必考+简单）、B（必考+难）、C（中频+简单）、D（中频+难）、E（偏/难）

下图是每年各个考点在试卷的分布柱状图，以及总占比饼状图。

有了考点归类后，做教学工作就可以有侧重（核心考点必须搞透），考生起步晚、来不及也可以科学、有策略的放弃那些偏的（帮助班主任制定精简复习方案）。

3）考点掌握情况相关维度【已经完成，可以在app知识图谱界面查看】

我们拆了近2000个考点，每个考点下面又有多个考察角度；然后把题库，课程，速记本等都和考点关联上形成“知识图谱”；同时把前几年过线考生的数据放进去，我们就知道，每个分数段考生，每个考点做多少题？正确率要达到多少算达标？背几轮才能过线？

①第一轮主要是听课，我们配了大量的样板题，检测理解情况，不达标及时改正。

②第二轮主要是刷题，我们量化了每个考点的刷题指标+20多年真题+5千多模拟题题库，匹配智能出题，让你刷够好题，都刷自己薄弱点，都刷高频考点。

每个考点都有往年考生真实数据，每个考点的数据都是不一样的，高频要求高，低频要求就低，因往年过线考生低频考点，他也掌握的不好，低频考点不是过线的关键！

三星是往年客观题180-190分，刚好过线考生的数据，四星是200-210分，五星就是210分以上考生的数据。你尽量按照四星去掌握，实在不行再降低为三星！

③第三轮主要是背诵，我们有背诵卡，让你零碎时间就能背；有问答、填空等速记题检测记忆达标，让你多轮背诵。

4）未来我们还想加入思维能力、学习能力测评【未开发，在想方案】

因为我们发现部分学生其实没怎么学也过了，而且听完一遍课后正确率就很高，不需要反复听，这部分可能思维比较好，聪明。当然，也有一部分资质差的，要比别人更努力才能过线，我们发现这个和法学基础没有必然关系。

因此，我们想通过一些逻辑测试题，和关键数据，如首次听课后正确率等，判断考生的资质，资质好的，可以少弄一些，资质不行的得加量！如下图的维度（示例）

3. 分数预测

通过上面多维度模型，对照往年过线考生模型，推测出你的分数，这个也完成了，可以在觉晓法考APP数据界面查看，只要数据量够（如各个考点都做了题，不是仅仅一个科目的数据），10分误差范围内，准确率在98%。

4.千人千面的个性化复习方案

已经完成70%，在班主任后台，预计4月前完成全部，主要基于上述内容，在带班期间可以做到：

1）根据知识图谱数据，及时查缺补漏（每个人的掌握情况是不同的，二轮复习开始，我们希望千人千面，把时间利用在自己薄弱点上）

2）如果考生出现中途加班、生孩子等耽误、或起步晚、时间少、能够最科学的删减内容，如偏的E类考点彻底放弃，AC类背诵的直接跟背诵阶段，前面刷题可以少一些；

3）以上基建和功能都做完了，就是差班主任很方便的操作，我们希望班主任只需要在后台跟学员沟通后，输入一些参数（每天学习时间、哪些时间不能学习等），就可以自动化生成复习方案【我们内部称呼为钢铁侠班主任】，而且这个方案完全针对到考生个人薄弱点，考频等，复习效率拉满！

总之，过考模型项目上线后，我们希望做到：让考生花最少的时间，但过线却最稳！

其他你们还有什么需求，可以提，毕竟在司法考试（法考）AI方向，我们是全国第一的团队！

你想得到的，有价值的，我们都可以实现！

积累了那么多年的数据，有那么厉害的团队，你放心备考，其他交给我们！

最后搞波小福利：截止至2月3日14点（本周五下午2点），在本文留言谈谈“你对AI应用于法考备考的期待”，我会挑选精选留言点赞前5名的同学，各送出一份【觉晓周边搪瓷杯】；挑选精选留言点赞第6-10名的同学，各送出一份【觉晓周边钥匙扣】

另外，除本文外，我的微博和觉晓法考微博都在送礼，你们都可以扫码试试手气，沾沾喜气哈！

扫码抽奖，沾沾喜气！

感谢每一位支持觉晓的同学，我们一起完成这次法考数据化改革！AI牛逼！觉晓牛逼！你们牛逼！

免责声明 本站提供的一切软件、教程和内容信息仅限用于学习和研究，不得用于商业或者非法用途，否则，一切后果请用户自负；本站信息来自网络收集整理，版权争议与本站无关，您必须在下载后的24个小时之内，从您的电脑或手机中彻底删除相应的内容；如果您喜欢该内容，请支持正版，得到更好的服务；我们非常重视版权问题，如有侵权请与我们联系，敬请谅解！邮箱：sanshi@sanshi.link

没有相关内容!

暂无评论

您必须登录才能参与评论！

立即登录

暂无评论...

人工智能真TM牛逼！法律AI能否取代律师、法官？法考领域如何突破？

没有更多了...

没有更多了...

相关文章

暂无评论