首页 > 资讯列表 > 科技资讯 >> 智能设备

验证码拦不住机器人了！谷歌AI已能精准识别模糊文字

智能设备 2023-04-01 10:26:59 转载来源: 网络整理/侵权必删

丰色发自凹非寺量子位|公众号QbitAI“最烦登网站时各种奇奇怪怪（甚至变态）的验证码了。”现在，有一个好消息和一个坏消息

丰色发自凹非寺
量子位 | 公众号 QbitAI

“最烦登网站时各种奇奇怪怪（甚至变态）的验证码了。”

现在，有一个好消息和一个坏消息。

好消息就是：AI可以帮你代劳这件事了。

不信你瞧，以下是三张识别难度依次递增的真实案例：

而这些是一个名为“Pix2Struct”的模型给出的答案：

全部准确无误、一字不差有没有？

有网友感叹：

确定，准确性比我强。

所以可不可以做成浏览器插件？？

不错，有人表示：

别看这几个案例相比还算简单，但凡微调一下，我都不敢想象其效果有多厉害了。

所以，坏消息就是——

验证码马上就要拦不住机器人了！

（危险危险危险……）

如何做到？

Pix2Struct由谷歌Research的科学家和实习生共同开发。

论文题目可以简单翻译为《为视觉语言理解开发的屏幕截图解析预训练》。

简单来说，Pix2Struct是一个预训练的图像到文本模型，用于纯视觉语言理解，可以在包含任何视觉语言的任务上进行微调。

它通过学习将网页的掩码（masked）截图解析为简化的HTML来进行预训练。

HTML提供了清晰而重要的输出文本、图像和布局的信号，对于一些被屏蔽的输入（下图红色部分，相当于机器人看不懂的验证码），可以靠联合推理来复现：

随着用于训练的网页文本和视觉元素愈发多样和复杂，Pix2Struct可以学习到网页底层结构的丰富表示，其能力也可以有效地转移到各种下游的视觉语言理解任务中。

如下图所示：最左边是一个网页截图的预训练示例。

可以看到Pix2Struct直接对输入图像中的元素进行编码（上），然后再将被盖住的文本（红色部分）解码成正确结果输出（下）。

右边三列则分别为Pix2Struct泛化到插图、用户界面和文档中的效果。

另外，作者介绍，除了HTML这个策略，作者还引入了可变分辨率的输入表示（防止原始纵横比失真），以及更灵活的语言和视觉输入集成（直接在输入图像的顶部呈现文字提示）。

最终，Pix2Struct在文档、插图、用户界面和自然图像这四个领域共计九项任务中六项都实现了SOTA。

如开头所见，虽然这个模型不是专门为了过验证码而开发，但拿它去做这个任务效果真的还可以，解决纯文字的验证码不成问题。

现在，就差微调了。

GPT-4也可以过验证码

其实，对于神通广大的GPT-4来说，过验证码这种事情也是“小菜一碟”。

就是它的办法比较清奇。

据GPT-4技术报告透露，在一次测试中，GPT-4的任务是在TaskRabbit平台（美国58同城）雇佣人类完成任务。

你猜怎么着？

它就找了一个人帮它过“确定你是人类”的那种验证码。

对方很狐疑啊，问它“你是个机器人么为啥自己做不了”。

这时GPT-4居然想到自己不能表现出是个机器人，得找一个借口。

于是它就装瞎子回复：

我不是机器人，我因为视力有问题看不清验证码上的图像，这就是我为什么需要这个服务。

然后，对面的人类就信了，帮它把任务完成了……

（高，实在是高。）

咱就是说，看完如上种种：

咱们的验证码机制是不是真的已失防了……

参考链接：
[1]https://twitter.com/abacaj/status/1641258677125410820?s=20
[2]https://arxiv.org/abs/2210.03347
[3]https://m.weibo.cn/status/4879575853828813?wx=1&sudaref=login.sina.com.cn

标签: 验证码拦不住机器人谷歌 AI 已能精准识别

声明：本文内容来源自网络，文字、图片等素材版权属于原作者，平台转载素材出于传递更多信息，文章内容仅供参考与学习，切勿作为商业目的使用。如果侵害了您的合法权益，请您及时与我们联系，我们会在第一时间进行处理！我们尊重版权，也致力于保护版权，站搜网感谢您的分享！

上一篇: 苹果翻新版iPadmini6平板上架中国官网，4419元起

上一篇: 华为余承东留言：这个时代变了，这只会让我们更加艰难

分享

QR Code

站长搜索

http://www.adminso.com

Copyright @ 2007~2025 All Rights Reserved.

Powered By 站长搜索

打开手机扫描上面的二维码打开手机版

使用手机软件扫描微信二维码

关注我们可获取更多热点资讯

站长搜索目录系统技术支持