广告
加载中

吴恩达:文本领域的革命即将在图像领域出现

亿邦动力 2023/10/19 15:09

日前,AI领域的著名科学家吴恩达(Andrew Ng)在AI硬件峰会上表示,文本领域的革命即将在图像领域出现。他展示了一项名为“视觉提示”的技术,通过在图像上涂鸦来提示AI代理识别图像中的对象。这一技术的出现引发了人们对于AI视觉技术的热议。

通过使用Landing.ai的用户界面,吴恩达演示了如何使用视觉提示来训练AI代理识别图像中的对象。他在舞台上涂鸦了一只狗,并让AI代理成功地识别出了图像中的狗。此外,他还展示了如何使用视觉提示来计算培养皿图像中的细胞数量。这一技术的应用范围十分广泛,有望为许多行业带来巨大的改变。

吴恩达指出,在计算机视觉领域,目前正出现一种与三年前的自然语言处理(NLP)相似的氛围。他解释说,这种进展主要是由大型transformer网络推动的。在文本处理领域,大型语言模型(LLMs)已经取得了巨大的成功,并且在视觉领域,使用未标记的数据进行训练以及扩大模型规模也正在成为事实。这些进展有助于提升视觉模型的泛化能力,但同时也带来了新的挑战。

尽管人们对于大规模视觉模型(LVMs)充满期待,但这一技术尚未成熟。吴恩达在讨论中提出了一个未解之谜:如何为训练大规模LVMs所需的数据提供来源?目前,最大的文本生成LLMs通常依赖于互联网上的大量语料库进行训练。然而,互联网上能够提供大量未标记、非结构化的训练数据,但对于视觉领域来说,标记数据的数量相对较少。因此,如何解决数据稀缺的问题成为了研究人员亟待解决的难题。

AI视觉技术的发展为我们带来了巨大的机遇和挑战。视觉提示技术的出现为训练AI代理提供了新的思路,同时也展示了AI在图像领域的潜力。然而,大规模视觉模型的发展仍然面临着诸多困难。我们期待未来的研究者能够解决这些挑战,推动AI视觉技术的进一步发展。

文章来源:亿邦动力

广告
微信
朋友圈

这么好看,分享一下?

朋友圈 分享

APP内打开

+1
+1
微信好友 朋友圈 新浪微博 QQ空间
关闭
收藏成功
发送
/140 0