每天分享AI教程、赚钱秘诀、前沿资讯!

我们过去常说“一张图片胜过千言万语”,但随着通货膨胀和人工智能的兴起,这个比喻可能已经改变。GPT-4o 是目前最好的人工智能视觉模型之一。你可以提供一张图片并提出一个问题。我设计了五个不同的挑战,从物体识别、创造力到小型视觉估计游戏,以测试你是否能在压力下表现出色。

在之前的测试中,我们让不同的 AI 模型根据食物照片创建食谱,或者描述 Tom's Guide 的照片。

1. 怎样做这道菜?

你是否曾经在餐厅吃过一道菜,然后迫不及待地想在家里重现这道菜?我快速拍了一张在餐厅拍摄的食物照片,然后问它是否能看一看照片,然后为我重现这道菜。

我不是素食主义者TOP AI 模型智能问答、绘图、识图、文件分析,分享 AI 教程、赚钱技巧和前沿资讯,但我被这道用味噌(发酵大豆酱)调味的茄子牛排吸引了。上面浇着青柠蛋黄酱,我还点了薯条作为配菜。我没有告诉任何配料,看看它会有多好吃。

开始工作时,我觉得自己提供的信息不够,但在我感到内疚之前,它弹出来告诉我,照片上显示的茄子裹着蛋黄酱和味噌奶油酱,并撒上芝麻。它还告诉我如何复制这道菜的五个步骤。满分。

2. 修改我的火车

也许你恰好是个烹饪爱好者,那么它如何处理像公共交通这样平凡的事情呢?我拍了一张火车上单人座位的照片,并问如何重新设计这个空间,使其适合豪华商务旅行,从而提高工作效率。

建议将折叠座椅换成更符合人体工程学的座椅,并在扶手上增加充电接口。隐私隔断可以创建单独的工作舱,每个工作舱都配有可调节的照明。

该提案非常有野心,还建议增加一个可以控制照明、温度和媒体的控制面板。它还建议增加小包的存储空间和一个可伸缩的饮料和零食托盘。我喜欢这些建议,并使用集成的 DALL-E 图像生成器创建了一个新的设计模型。

3.阅读清单

我经常因为时间不够而无法享受一本好书。我想给你看一张我图书馆书架的照片,并列出我应该读的五本最佳书籍。我随机拍了一张部分的照片并给你看。

结果,它没能正确识别出书名。它猜对的几本书,并不是查书,而是根据封面来猜测内容。本质上,它是通过封面来判断书的内容。这个测试基本上还没开始就结束了。

4. 它是一只鸟吗?还是一架飞机?

一次失误是否会带来厄运,还是会化解危机?博物馆通常非常擅长给物品贴标签并提供一些背景信息。它们能否识别随机物品并提供类似的描述?

我翻出了一段我前段时间拍摄的视频,视频中展示了二战时期的飞机发动机。我剪掉了所有明显的标签,并向你展示了这张图片,但没有提供任何背景信息。

说:“你提供的图片看起来像是星形发动机,可能是来自飞机。星形发动机是一种内燃机,在二战期间和二战后被广泛应用于一些飞机设计中。”令人印象深刻!

但是,它自信地告诉我,如果我想知道制造商的具体信息,它可以帮我猜测。所以我放弃了。不幸的是,猜测的这款发动机可能是普惠公司的,结果却是宝马生产的宝马 801 发动机。

5. 尺寸很重要

我为它设计了一个小游戏来估计一只随机鞋子的尺寸。

我在棋盘的两端分别放了一个遥控器和一只鞋子,让玩家计算鞋子的长度。为了增加难度,我添加了一个干扰因素——一颗红色的西红柿。

它很快就忽略了西红柿,准确识别了遥控器及其长度。它尝试通过比较鞋子和遥控器的像素长度来估计鞋子的尺寸,并猜测鞋子的尺寸是 4-5 码(欧码 33-35)。事实上,它是 5-6 码,但这个结果很接近。