前言-2.22更新
ChatGPT或者说通用人工智能(AGI)最近真的火爆了。当然了其实从12月初发布之处程序员圈子已经很火了,一开始也玩了,该调戏也调戏了。出圈更多是微软砸了100个亿下去,各界资本下场圈地,启动新一轮技术革命。
商业的事情咱也不敢问。但是新技术的引领作为工程师理所应当去积极拥抱。作为技术人员,应该也很高兴自己所在行业的技术正在逐渐改变世界,尽管这个技术也不是咱小码农能搞出来的。
跟某创业大佬的聊天。以下引用他的一些看法:
那未来要解决的问题可能是三个方面: 一是满足需求的能力要如何分配,因为不是任何人的需求都能满足,比如穷人; 二是挖掘新需求并满足,这种更偏向精神需求,想象空间很大; 三是更好地满足旧需求,但是现阶段已经很难了,除非基础科学有新突
AI能处理全部三个问题。AI服务人类,本身就是在更好地满足人类需求,解决第三个问题;AI生成的内容,可以满足人类的精神需求,解决第二个问题;极度成熟的AI,意味着生产力极大地提高,人类直接步入共产主义社会,解决第一个问题
AI,元宇宙,区块链等等技术,都是新的工业革命的一部分。而GPT的诞生,只是这一轮工业革命前期的小高潮
世界一直在变化,而混乱才是上升的阶梯。
再放一张图。不仅是技术的创新,生产关系的摸索上人家也一直走在前面。还是那句话,世界是变化的、落后就要挨打。
AGI工具链使用
虽然由ChatGPT引爆了AGI的浪潮,但就目前已经有一套较为成熟的AGI工具链,马上对这个新兴的技术革命市场进行跑马圈地(虽然已有的大部分正是基于ChatGPT背后的模型,或者家族中的变种模型)。
目前基于各家头部科技公司产品的工具链可供参考:
- ChatGPT/New Bing聊天机器人:代替搜索引擎,解决通用问题
- Github Copilot:IDE集成,AI辅助自动化编写代码
- Notion AI:文档AI,复制生成文档框架和生成部分内容
对玩法和发展记录、跟踪一下。
ChatGPT
只贴一下参考教程,已经是好几个月前弄的。做法也很简单,就正常注册OpenAI,只是需要购买一个能够使用ChatGPT服务的国家的验证码服务,比如我用的是印度的。就几块钱。现在爆满的话考虑换个贵点的国家。
注册参考:
- OpenAI 推出超神 ChatGPT 注册教程来了|Gmail 外国手机短信验证码接码 - 孤飞 - 博客园 (cnblogs.com)
- 怎样注册ChatGPT账号? 1元印尼电话号码OpenAI接码-接码号 (jiemahao.com)
注册完成后注意还是要挂梯子登录,以前香港不行,现在好像也可以了。
用法就很简单,Ask Anything.
很多时候,能不能提好一个问题本身就是一个问题。因此我们解决一件事的过程仍然是:对问题建模、把整个模型拆分成一系列的步骤、调研一个小步骤的解决方案、细化实施方案完成一个小步骤、递归完成所有问题。ChatGPT仅仅是加速了研究解决方案和获取解决方案的速度。归纳、抽象,提好一个问题将是一个核心能力。
Trick.
目前New Bing还没发布稳定版前,搜索用的仍然是Google + ChatGPT插件。效果类似:
插件名在图右下角。目前效果已不错。ChatGPT生成间隔用传统搜索在左侧浏览更多信息。唯一缺点是,生成速度较慢,且ChatGPT偶尔就要重新登录。
更新:目前上述的插件(ChatGPT for Google)更新到2.0版本,UI跟持续对话方面基本跟Bing对齐了。而且使用OpenAI的API的话,稳定性和速度都可以,也免登录。唯一缺点就是花钱的,OpenAI每月有18刀的额度,差不多应该够用了。
Bing/Edge-2.24更新
2.23发现更新的Bing移动版。测试了一下。主要是添加了移动端及时访问、以及语音输入、输出功能。增添了语音调戏机器人更有意思了。移动场景以及语音输入确实会更方便很多,也是庞大的市场。
使用方法:本人下了Play版的Bing App,首页图标就直接进入聊天,最方便(移动端必须翻墙)。
2.10申请waitlist,2.12已经加入测试了。我个人的申请方法是直接翻墙访问国际版bing的。
第一个题外的小问题是,加入waitlist必须开通微软的Rewards,导致搜索界面一直有个小红点,强迫症震怒。实测无法关闭,关闭就会退出waitlist.
说说体验:上来的搜索体验感觉直接碾压传统搜索功能。给出参考来源、例举多个备用选项,乃至帮我写一个功能的代码。
比如我使用的一个案例是:有个需求把windows平台文件编码批量转化,utf8及GBK互转,不少软件都提供类似的功能,比如github有个专门做这个的傻瓜版软件,基于python的,大概有200多个星。但是为了定制化的一些需求,我让bing给我生成了一个python脚本。经过我多次添加需求,最终实现的python脚本非常实用。也就是说,bing轻易完成了一个开源200星实用度的程序。
但是经过一段时间使用,特别是版本更新以后,不满也增多。
- 有不少错误的答案,自己去辨认错误答案也要浪费不少时间。
- bing搜索本身比不上google的好。
还添加了新限制:
- 每天限聊50条消息
- 每个会话最多进行5轮对话
- 必应AI不会谈论有关它自己的事情
现在就是有免费用就用免费的吧。没有就问ChatGPT.
这部分其实还没有公测。主要是预览版。那现在也就是看个鲜。预览:
主要功能和新特性:
Bing聊天机器人:
- 提供信息源、可以对信息进行验证
- 紧跟时事、语料库实时更新
- 回答更广泛的问题
- 更准确的回答
- 聊天过程更有趣 (滑稽)
写作机器人、生成笔记、邮件等;
内容抽象:对打开查看的论文、网页抽象出信息。
Github Copilot
Github Copilot就是专门用于写代码的AI,应用于生产环境。目前其实主要就是代码补全。相当于更智能的高配版IDE代码提示。虽然看起来简单,但是提示乃至生成这个功能强大到一定地步后,代码编写将有跨时代的编写模式,个人体验的改善有:
- 更强大的代码提示,IDE的代码提示一般是API级别的提示,往往要结合API手册进行。AI的代码提示是函数级别的,粒度更大。代码编写将往模型驱动、任务驱动发展;
- 编程模型迁移。降低新编程领域的学习成本,很多编程语言在抽象概念层次是相通的,改变的只是语法和不同设计的优劣。同样的编程设计,只要熟悉一种,基于AI帮助能够实现更好迁移。
- 降低学习门槛。基于前面的,在学习过程也将没有必要纠结于一些小的语法上。打开IDE,测试一项任务,比如读写文件,就可以基于AI生成的代码完成一项任务。
对python的测试:输入注释想完成的事情,生成代码。
使用。
使用很简单,在Github开通即可,但是要绑定付费账户,我个人注册了Pay Pal,绑定Pay pal。有60天免费使用或开通学生开发包。后者不在学校暂未尝试。
然后提供VS、VSCode、JB等IDE的插件支持。开通、下载插件、打开IDE,跟往常一样编码,即可获得便捷的体验。
Labs!提供更多更玄幻的功能!
- 代码解释
- 代码翻译(迁移语言)
- 测试代码生成
- 格式刷:生成注释、代码重构、增加可读性、增加鲁棒性等等。
图中注释均为AI自动生成(不过因为是Lab功能,生成的质量不一定好)。自动生成注释这个功能很实用,写完代码(函数实现)最讨厌写注释而且也最讨厌看到别人一大段代码没有注释了..
Notion AI*
这个暂时也没发布,在waitlist中。产品介绍及加入waitlist:Notion AI
主要的一些核心功能:
根据 Notion 官方的介绍,Notion AI 的几个核心功能:
- 可以帮你处理初稿——让 Notion AI 处理你关于某个主题的初稿,并获得你可以塑造成伟大事物的想法。
- 激发想法和创造力——Notion AI 可以立即为您提供关于任何事物的想法列表,将想法作为您自己创造力的起点。
- 充当强大的编辑器——无论是拼写、语法,还是翻译,Notion AI 都能发现错误,甚至翻译整篇文章。
- 总结会议和文件——让 Notion AI 提取最重要的要点和行动项目,而不是筛选一堆乱七八糟的笔记。
在我看来比较像文档领域的Copilot(当然AGI都类似),就是代码的自动生成和自动补全。
哎,更加为咱们的飞书叹气。
汇总
对各类AGI工具进行一个总结。
工具名称 | 用途 | 模型 | 费用 |
---|---|---|---|
ChatGPT | 通用聊天机器人 | GPT-3 | 免费/Plus20刀 |
New Bing | 通用聊天机器人 | GPT-3/3.5 | 未上线/免费 |
Copilot | 代码编写AI | GPT-3变种 | 10刀 |
Notion AI | 文档AI | GPT-3 | 未上线/免费 |
AI绘图
从最开始的Stable diffussion model开始玩,但是因为没自己主机和显卡,还有一点训练和生成的门槛,后续基本没怎么玩了。不过CV领域的产物总是一个好玩的玩具。
倒叙记录一下一些“学习”过程:
ControlNet插件。给预训练扩散模型增加一个额外的输入,控制它生成的细节。可以是各种类型的输入,作者给出来的有8种,包括草图、边缘图像、语义分割图像、人体关键点特征、霍夫变换检测直线、深度图、人体骨骼等。[lllyasviel/ControlNet: Let us control diffusion models (github.com)](https://github.com/lllyasviel/ControlNet。在线尝试的网站:jagilley’s Models – Replicate。人类姿态的动作测试:
拿比较火的那张图测试一下:简单是挺简单的,不过还是得修。
听小伙伴说的:midjouney.(需要邀请码似乎)
OpenAI加的DALE-E 2模型:主要是基于一张原本的图使用AI进行修图,比如抠图、去除物体、扩展等。DALL·E 2 (openai.com)
Novel AI爆火时,魔法师们分享的咒语。效果蛮惊艳的,但主要集中在动漫风、不太真实的效果:元素法典——Novel AI 元素魔法全收录 (qq.com)
其他AI工具
OpenAI家
OpenAI除了直接提供产品,还提供很多基于训练好的大模型的API,比如文本补全、代码生成,可以开通API Key,开发自己的应用。Account API Keys - OpenAI API
DALE-E 2
由文字描述生成图的模型,web API服务。
自动生成代码提交日志
Never write a commit message again (with the help of GPT-3) · Roger Zurawicki
基于GPT-3接口。感觉不是很实用。
AI商业化
角色聊天机器人-2.24
它的原理就是使用算法模型,分析大量语料,得出词语分布的统计规律,然后生成符合人类思维的文本。
根据上面的原理,不难想到,如果所训练的语料都跟某个主题相关,那么就可以生成该主题的聊天机器人,比如法律或者生物学专用聊天机器人。
进一步说,如果所训练的主题都跟某一个人相关,那么不就可以生成该人的聊天机器人?
事实上,已经有人这样干了。2022年9月,谷歌公司的两个前员工,发布了一个叫做 Character.ai 的网站,允许用户创建”角色”,上传与该角色相关的资料,网站就会自动使用 AI 分析这些资料,生成该角色的聊天机器人,然后用户就可以跟它聊天了。
现在,Character.ai 网站已经有几千个角色了,可以作为聊天对象。它的 App 都上架了,叫做“你好,历史”(Hello History)
有预训练的角色,在Hello History中收费不低。如果某款机器人或包含某些机器人的bot爆火起来,这确实是个巨大的商机。