ITCOW牛新网 4月10日消息,人工智能领域的领军企业OpenAI宣布,其全新的GPT-4 Turbo模型——GPT-4 Turbo with Vision,已通过OpenAI API正式向广大开发人员开放。这一模型的推出标志着人工智能在视觉理解方面取得了重大突破。

monitor screen showing chatgpt landing page
Photo by Andrew Neel on Pexels.com

GPT-4 Turbo with Vision不仅继承了GPT-4 Turbo系列的强大功能,包括128,000个token的窗口大小和截至2023年12月的知识库,更重要的是,它新增了视觉理解能力。这使得模型能够同时处理和理解文本与图像信息,为开发者提供了一种全新的、更高效的开发方式。

在过去,开发者在处理文本和图像信息时,往往需要调用不同的模型,这不仅增加了开发的复杂性,也限制了应用的创新空间。而GPT-4 Turbo with Vision的推出,打破了这一限制,将文本和图像的处理合二为一,极大地简化了开发流程,同时也为应用带来了更广阔的创新空间。

OpenAI还分享了一些开发者已经在使用GPT-4 Turbo with Vision的有趣案例。例如,AI软件工程助手Devin利用该模型辅助编程,提高了开发效率;健康健身应用程序Healthify则使用该模型扫描用户的饮食照片,通过图像识别技术为用户提供个性化的营养分析;而创意平台Make Real更是利用该模型将用户的草图快速转化为可运行的网站,大大降低了网站开发的门槛。

尽管目前GPT-4 Turbo with Vision尚未应用于ChatGPT或向大众开放使用,但OpenAI已经暗示,这一功能即将在ChatGPT上登陆。这无疑将为用户带来更加丰富和多元的交互体验。