让AI看见——Azure OpenAI GPT-4 Turbo with Vision体验

Posted by Bruce Wong on January 13, 2024

大语言模型一直都是以文字为主的交互方式,无论是文字补全(Completion)还是聊天补全(Chat Completion)都是需要通过文字与AI模型进行交互。这也是为什么需要提示词工程(Prompt Engineering)。好的提示词能够让AI理解我们的意图,更高效的作出响应。而人们是不会止步于此,所以多模态一直是向往的方向,让AI能够看见、听见、和我们语音交流,让人们和AI交互更像人与人之间。

之前在与chatGPT集成的可视化方案,大多是通过已有相对成熟的技术来将图像转化为文字,之后与chatGPT交互,一次来让AI可以看见。例如OCR技术。另外例如语音转文字和文字转语音的技术,让AI能够与人类直接对话。不过这些技术的核心基础,仍然是将内容形式转换成文字,之后和AI进行交互。OpenAI平台发布了GPT-4 Turbo with Vision之后,标志着OpenAI让他的大语言模型原生支持图像的识别。今天就用Azure OpenAI GPT-4 Turbo with Vision给大家介绍一下。目前仍然是Preview版本。不过可以一窥其强大之处。

认识图片的内容

在Azure上部署OpenAI对应的模型后,我们就可以在操场(playground)上面体验模型的效果了,下面就是在这个场景下面的使用效果。

识别一张风景的照片,描述地址,周围的描述等信息,当然可以结合旅游、餐饮、娱乐等应用配合。

Untitled

不仅是风景,还可以详细列举图片中元素。

Untitled

当然还可以对数学公式进行解题,可以从这里扩展很多衍生应用。

Untitled

不过目前模型还对英文提问支持的更好。中文同样的照片会提示无法识别。

Untitled

自定义图片数据

Azure OpenAI提供了自定义文件来上传和标记你自己的图片。可以解决上面无法识别的问题。如下几个步骤来处理自定义文件。

  1. 选择数据源

    Untitled

  2. 设置上传图片存放的地址以及索引服务信息

    Untitled

  3. 上传与你希望模型可以使用的图片,例如我希望识别冰箱内的食物。那就准备一些单独食物的照片。

    Untitled

  4. 并在那个照片的后面设置标记。这个很关键,因为图片和文字的对应关系就在这个时候建立起来了。

    Untitled

  5. 做完上述操作之后,等待模型准备,之后再次询问同一张图片。你会发现内容中文反馈了。

    Untitled

尝试识别其他其他相似图片,也可以获得不错的反馈。

Untitled

总结和展望

视觉是一种相对复杂的多模态支持,它相当于给AI提供了更丰富的信息输入形式。未来可以让AI更方便同时更无感的和我们的生活融合到一起,真的成为每个人的陪伴型智能助理成为可能。就像钢铁侠里面的贾维斯。可以想像基于这个技术可以有很多可以落地的方向:

  1. 对视频的每一帧做一些处理之后,通过图像识别,可以更高效理解视频内容。总结视频内容。或者最视频内容做审核。等等。针对视频内容的分析和处理会更高效。
  2. 随着处理速度的提高,对动态图像的处理能让AI具备视觉能力,更实时的处理和响应看见的东西。
  3. 分析图内容结合企业上下文。例如企业正在使用的云计算基础设施架构图。理解图的内容,并提供架构改进建议。
  4. 冰箱内部拍一张照片,让AI提供一份菜谱。
  5. 汽车企业可以有自己的产品图库来提高识别效率。例如拍摄一张汽车照片。推荐该型号车的信息,并提供保养、维护、就近4S店信息和建议等。
  6. 拍一个风景照片,推荐当地的旅游、住宿、餐饮、娱乐、购物等周边信息。并提供完整旅游攻略和形成安排。

拥抱新技术,用技术改变我们的生活。