体验了一把 MiniGPT-4，一言难尽

2023-06-12 13:50 由四猿外发表于 #其他

最近看到一个好玩的开源项目：MiniGPT-4。

看名字像 GPT-4 的小老弟，其实没啥关系。

简单说，它可以识别图像，基于图像你可以和它对话，它能生成图片描述、网站、诗歌。

先看看官方给出的例子截图。

给图写一段广告词

还能教做饭

根据图配上一段故事

卧槽，AI 长眼睛了！

除此之外，它还能找到图中的笑点、生成诗歌…… 还有更牛的，可以根据一张设计草图，生成站代码

看的我是目瞪口呆…… 上一次这么目瞪口呆，还是看 GPT-4 的演示。

估计看到这里，你和我一样都被惊到了，那接下来的内容，可以让你压压惊了。

这么强的工具，说什么我也得试试啊。

首先我找了一张 911 撞大楼的图片，试试 MiniGPT-4 的识图和描述。

下面是我传给它图片，和我俩的问答。

嗯，它回答的看着还行，像模像样的。

像模像样也就到此为止了，接下来 MiniGPT-4 的表现就有点让我失望。

我找了一个宫保鸡丁的图片，让它教我做饭。

MiniGPT-4 看成了炸鸡肉？！

葱段、辣椒：我俩不配被识别？

我提示一下

经过提示，它倒是知道了是宫保鸡丁了。但是做法没改过来…… 还是芥末、香菜……

可能它不擅长中国菜吧，不难为它了，换一道题，据说它能 get 图像的笑点。

我用的这张图

问它笑点在哪

没有解释笑点，只是单纯的描述了图，而且还描述错了，把手机看成了电脑。

我换了问法，又进行了提示，结果还是不太行。

再换个题，来个简单的。

哎，又逃避问题，没回答电影名也就算了，图的描述也有点胡说八道了，“白衬衣黑裤子”，“看起来很休闲”。

心累！每一次提问完等回答，都要等好几分钟，等了半天就等到了这么不正经的回答。

当初看完官方例子之后，我心里还窃喜，MiniGPT-4 可以帮我一个大忙：每次发朋友圈，给图配文字我都费劲想半天，到底文字怎么写才能显得我有才华。

试了一下，结果你们自己看吧。

已经无力吐槽了……

不应该啊，是我的问题？用法不对？

那我用官方例子的图片，试试图片生成代码。我就不信了。

还是老样子，MiniGPT-4 还是无视问题，闷头自己描述……

又问了一次，代码总算写出来了。

但是，这代码看起来也不对啊。

这时候，和官方截图一对比，我有一种的感觉:
红烧牛肉面里没看到牛肉。

以上就是我的体验过程。

因为每次提问之后，等答案都要好久，再加上有点失望，有些想法就没再尝试了。

总的来说，这次体验有点一言难尽：我带着好奇心和不明觉厉玩了半天，结果感觉我被玩了。

但是，静下来想想，MiniGPT-4 这种交互形式还是挺让人眼前一亮的，或许我的用法不对，或许它需要时间来不断迭代进化，或许我们应该给它更多耐心。

就冲着它的团队里有好几个华人名字，怎么着也得支持一下。

希望它以后能速度更快，功能更强大，MiniGPT-4 早日不 Mini。

最后，附上它的几个地址，感兴趣的小伙伴可以去看看。

官网和演示：https://minigpt-4.github.io/

github：https://github.com/Vision-CAIR/MiniGPT-4

论文：https://github.com/Vision-CAIR/MiniGPT-4/blob/main/MiniGPT_4.pdf

我建了一个免费 ChatGPT 学习群，在群里就可以免费使用 ChatGPT，入群扫码：

如果上面的群二维码过期了，你可以加我微信，我拉你入群：

医学生的人工智能实战课

# 医学生的人工智能实战课-初阶 (R version) # Practical AI course for medical students # 教学大纲 Syllabus ## I 准备工作 1. R 和 Rstudio安装 2. Quarto 和 R Markdown 3. Python 和 ...阅读全文

对DenseTensor进行Transpose

`ML.NET` 是微软推出的为. NET 平台设计的深度学习库，通过这个东西（`ModelBuilder`）可以自己构建模型，并用于后来的推理与数据处理。虽然设计是很好的，但是由于现在的 AI 发展基本上都以 `python` 实现作为基础，未来这个东西的发展不好说，特别是模型构建部分。我个人认为 ...阅读全文

WMIC远程执行命令横向移动

# WMIC远程执行命令横向移动 [TOC] ## 一、wmic介绍 wmic扩展wmi（Windows Management Instrumentation，Windows管理工具），提供了从命令行接口和批处理脚本执行系统管理的支持。 wmic命令需要本地管理员或域管理员才可以进行正常使用，普通 ...阅读全文

升级Debian12不会？，那么用这个脚本就对了

# 前言 2023 年 6 月 10 日，Debian 正式发布了其最新的稳定本12（代号 bookworm ）。作为一名 Linux 的爱好者，怎能不第一时间升级它。相对于 Debian 11，Debian 12 包含大量更新的软件包（上一版本中超过 67% 的包）。个人感觉还是可以升级的，不过 ...阅读全文

云原生周刊：DevOps-resources

推荐一个 GitHub 仓库 “DevOps-resources”。这个 GitHub 仓库包含了学习和实践 DevOps 所需的资源列表。它包括涉及云计算、容器化、微服务、自动化和安全问题的文章、书籍、课程和工具。资源按最佳实践、代码基础设施和安全性等类别进行排序，使得用户可以更轻松地找到与他们需 ...阅读全文

opennmmlab实战营二期-mmsegmentation理论课（八）

# opennmmlab实战营二期-mmsegmentation理论课（八） [视频链接](https://www.bilibili.com/video/BV1gV4y1m74P/?spm_id_from=333.1007.top_right_bar_window_history.content.c ...阅读全文

传统软件如何SaaS化改造，10个问答带你掌握最优解

摘要：如果您所在企业希望实行SaaS化改造，可访问了解华为云开发者技术团队的SaaS支持计划。本文分享自华为云社区《【云享问答】第1期：传统软件如何SaaS化改造，10个问答带你掌握最优解！》，作者：技术火炬手。如果您所在企业希望实行SaaS化改造，可访问了解华为云开发者技术团队的SaaS支持计 ...阅读全文

人民日报：天翼云持续拓展云网基础设施覆盖广度和深度

5月31日，由人民日报文化传媒有限公司主办的2023数字经济论坛在北京举行，本次论坛主题为“发展数字经济，共建数字中国”。人民日报社副总编辑徐立京、中国国际经济交流中心副理事长王一鸣、科学技术部高技术研究发展中心主任张洪刚、工业和信息化部信息技术发展司一级巡视员王建伟、中央网信办数据与技术保障中心主... ...阅读全文

【技术积累】算法中的回溯算法【一】

博客推行版本更新，成果积累制度，已经写过的博客还会再次更新，不断地琢磨，高质量高数量都是要追求的，工匠精神是学习必不可少的精神。因此，大家有何建议欢迎在评论区踊跃发言，你们的支持是我最大的动力，你们敢投，我就敢肝 ...阅读全文

解析汽车APP面临的18种攻击风险

近日，顶象发布《车企App安全研究白皮书》。该白皮书总结了目前汽车公司App所面临的主要技术威胁和合规风险，详细分析了这些风险产生的原因，并提供了相应的安全解决方案。现在，自有App已成为各汽车品牌的标配。这些汽车厂商的App不仅可以帮助用户实现远程开启空调、门锁、启动车辆等常用功能，还提供购车、 ...阅读全文