🗒️我尝试了一些大模型

北京西海

投资学习|2024-6-1|最后更新: 2024-6-3|
type
status
date
slug
tags
summary
category
password
icon

有关大模型的一些尝试

今年最火的东西就是芯片、AI、大模型这些东西了。英伟达的股价上天了,我们这里家家也都是大模型,而且最近很多的一个话题就是大模型们降价了,而且降的很厉害,某天在回家的路上,交通台也在探讨这个话题。作为一个非程序员的小白,却总是喜欢尝试一下新鲜玩意儿,也把这阵子尝试的东西做个漫谈,其实也更像是回答了一个问题:目前这些大模型跟普通人有什么关系?

国外的大模型体验

很多人大概率听说过的国外的ChatGPT,但大部分人估计都没用过,作为这场革命的领袖,还是有点矜持,而且付费需要美国信用卡,时不时还封一下用各种办法登录的账号,坦白讲,对于它,我更多地是在bing.com体验过,而且它被深度地整合到微软的Edge浏览器中,想想办法总能体验一下,但究竟是不是ChatGPT本尊,我真的也不太清楚。但就微软的产品来讲,体验下来还是最好的。
Google Gemini 作为后来者,没有那么多限制,而且感觉进步很快。不过追赶者嘛,从心理上总会有一些觉得不如创始大神来的牛逼。从内心还是希望Google可以快点进化,免得被微软一统江湖,让用户有选择,应该还是世界进步的动力之一。不过之前以开放、极客形象为主的Google被以商人形象出现的微软替代,感觉总是有那么点遗憾。现在微软更像一个西装革履的摇滚青年,玩的还很溜,Google像个技术天才穿着便衣奋力的追赶,世界真是变化快。
国外的大模型还有一些,因为使用不太方便,没有太多尝试。对于bing.com和Google Gemini 的体验来讲,总体还是不错的,感觉上微软的产品与浏览器捆绑比较紧,访问更方便,Google Gemini 尚未出现在Chrome上,而且使用体验差异不大,用的远远不如微软的产品多。
还是那句话,微软穿越了N个周期,从PC到现在,是一家牛逼的公司。就个人而言,bing提供的体验足够了,不需要再去其他地方尝试了。

国内的大模型

你听说过的稍微有点名气的大公司,都有自己的大模型,各种叫法不一而足。我是记不住的,还不如当年的搜狐、搜狗之类的好记,看样子各种动植物还是起名字的最好方式。而这些大模型更像是营销需要、一哄而上,生怕自己落伍,有没有先吹个牛逼再说。就像现在的电动车,最后剩下哪几家,谁也不知道。出来了那么久,由于有bing在,一直都没有注册的欲望,什么360、百度这些公司的大模型,打心眼里就没兴趣。现在的产品做成那个奶奶样,新的又有什么期待?虽然周鸿祎的直播干的不错,但跟产品页没什么关系。因为各种机缘巧合,试用了科大讯飞的和字节跳动的产品,从实际来讲,是浅尝辄止,但不妨碍拿出来说说,不怕露怯,也欢迎批评指正。
之所以想尝试这两家的产品,我们的老的互联网公司都忙着扎篱笆割韭菜了,只有新公司为了突破重重封锁可能干点实事,虽然也不少下三滥的事,但比占着坑,随便一指说这就是我的地盘的大部分老公司要好太多了。所以,不知道微软是咋在那么多周期里兜兜转转都走出来的。

科大讯飞

科大讯飞这家公司很有意思,我买了它不少产品。我还真看了上市公司的年报,ToB 和 ToG的收入占了一大块,我就知道为啥我作为科大讯飞的一个C端用户被它弄得云里雾里的。财报的事情,先放下不表,找机会专门搞搞,就讯飞现在的产品来讲,还挺有趣的,先说说我对科大讯飞的印象,还有那个星火大模型。
科大讯飞印象里是卖录音笔起家的,最早就主打翻译和识别,可以说之前是卖硬件的。没想到大模型出来了,改卖软件了,而且翻译和语音识别一下子没有壁垒了。但科大讯飞在产品端做了很多的尝试,尤其是耳机和会议狗,把会议录音这个场景吃透了到极致。坦白讲,在大模型泛滥的今天,被追赶和超越不是太难的事。但这个细分市场,到目前为止,讯飞做的很扎实有趣。
在录音笔时代,科大讯飞把云、翻译、语音识别等作为增值服务免费捆绑到硬件上,逻辑是买硬件送软件。架不住时间变化快,现在软件普及,很多App借助手机也可以完成相应的功能,讯飞借着大模型向软件转,于是老产品和新模式之间的衔接便成了问题。我下过科大讯飞的很多APP,也翻遍了跟科大讯飞有关的网站,感觉从C端来讲就是一锅粥。老的录音笔内的资料想导出来,还可以去问了客服。总体的感觉是,旧硬件附送的功能,被限制在一个APP当中,当时承诺的免费的功能,还要保证承诺,同时还不能让新加的云端功能顺带免费了,花了很多心思扎篱笆。其实宣布没什么球用的大模型Lite免费,还不如给老的硬件用户顺带开放新功能来得大气。搞那么多APP,真是不够费劲的。
其实场景很接近,让客户易用才是根本,而不是所谓假设细分的场景。很可能也是老的公司架构遗留了不同的团队负责不同的产品,还下不了决心按照新的业务逻辑整合。讯飞的耳机很不错,但整个的产品体系和逻辑,太乱了。人为细分的场景,在用户那里很可能不存在。如果想在这个领域领先,讯飞不革命很容易被一家新冒头的公司打的七零八落。毕竟技术应该不是门槛,用户积累和习惯才是门槛。
说回讯飞的星火大模型。下了APP,也在网站上试用过。体验一般,不管广告说的怎么样,感觉并没有把网络上的资源用到太多,只是有个模型吧。体验过耳机产品自动提取的会议纪要要点,在现在这个阶段,效果还可以。但至少在实际应用上来讲,在流程上交个差还可以,如果真是想了解会议的实际内容,恐怕没人敢只看一下AI给的梗概,还是要听一下全文吧,哪怕真的是有那么多的废话。
在星火大模型中,用户可以根据自己的喜好自建一些特定专属功能的智能体,其实就是专项的大模型。这个平台就像一个blog系统,每个用户根据自己的喜好和特长来训练一个个性化、有专长的模型。简单试用了几个,好像对个人用户意义并不大。
notion image
notion image

字节跳动的豆包和扣子

豆包是字节跳动的大模型,为了写这个文也去试了一下,感受跟讯飞大模型差不多。总体的布局和思路也很像。豆包是后出来的,名字比较讨巧,也更好记一些。同样的问题,我也问过星火,可以看看截图的对比,虽然有些差异,但总体看起来都是浓浓的机器味道。同样也设置了自己设定特点的平台,有很多产品供使用。不过看了一下,也没太多试用的意愿。
字节跳动下面还有一个叫扣子的平台,这个平台可以理解成更像是一个公共的模型整合平台,用户可以在其中创造很多应用,这些应用可以通过模块化组织在后台使用其他大模型、综合其他大模型的内容,不仅包括了豆包,也包括了国内其他的一些大模型。根据个人设定的模型做好之后,可以通过API接入一些其他的服务,比如说微信客服等。但coze.com和coze.cn是两个物种。从coze.com后台来看,也集成了ChatGPT等最著名的模型,也嵌入了很多国外的软件,从这个角度上看,扣子是最国际化的。当然,coze.cn只集成了国内的一些大模型,可以绑定的后台也主要是国内的应用服务。
不管怎么讲,哪怕是割裂的,字节跳动的模型看起来更国际化,而国际化的一些思想反过来也被应用到国内的产品中来。不像有些公司,天天琢磨着做局域网里面的管理员,连抄一下国际化的产品都懒得抄了。这一波看起来,字节跳动从理念上是有领先的,但实力上暂时无法判断。
notion image
notion image

野生的整合

github是个好东西,这是一个开源的程序员社区,上面总会有一些出人意料的奇思妙想并被付诸实践。这个全世界最大的开源聚集地的所有人竟然是微软,在上面还能找到很多微软的盗版软件,从这个角度上看,也难怪微软会在这个周期里面脱颖而出。
github里面的程序员,经常会用一种意想不到的方式,组合各种公开、免费的API来组合成一个超出你想象的东西,这种发自内心的创造性是一切流程无法比拟的。现阶段各种AI工具层出不穷的情况下,这里经常会冒出一些有趣的东西。其实里面的文档都是非常 step by step的,只要按图索骥,大部分时候都是可以到达终点的。
分享一个这两天发现的东西:
这个名字比较诱惑,但简单看一下它的后台,高度定制可选择的大模型,来一键生成你想要的视频,现阶段对于中国人的问题是,几乎所有的东西都来自于国外开放的网站,当然你也可以设定为国内的大模型的API。目前所有视频素材来自于国外,不是黑人就是白人,几乎没有黄皮肤的人。看他们将来可以从抖音和小红书上取材,还真是有点期待呢。
野生,代表着生命力。开源的星星之火,即使有一部分被招安,永远还有想改变世界的程序员不断冒出来。

究竟有没有用

目前大模型解决最好的翻译问题,虽然免不了机器的味道,但对日常的理解已经完全够用。甚至实时翻译,实时的电影字幕等等。另外,对于个人来讲,应付流程的案头工作,大模型也很好地可以用机器味道浓厚的套路给予不痛不痒的回应,摸鱼好帮手。
不过在企业端,我们日常已经大量地接触到这些AI,即使它们还显得有点笨拙。我们日常用的APP,你想找个人对话,大部分都要敲入:人工指令,才能进入到等待的序列里面,否则就是机器跟你笨拙的对话。而我们,也会经常接到人工智能打来的广告电话,而且越来越拟人化。也许很快,就会像《her》电影里一样跟你互动,但在当下这个时点,你还是能感觉到它是一个AI,而不是人。
我们已经在一个充斥着各种AI产生的内容当中,其实当中有大量的垃圾信息,因为其中的成本越来越低,也许很快就会有专门标注“人工生产内容”的AI出现。现在工具极大丰富,但创意和想法已经跟不上工具的发展了,于是大量的垃圾被迅速低生产出来。而我们,可能花了很多的时间研究工具,却不知道用工具能搞出什么东西。让他们进化去吧,大概人得专注于人本身的进化。
notion image

实践

最后,接上一个视频,就是用github里面的免费程序产生的内容,各位可以看看啥感觉,其中的语音是用微软的免费服务接口生产的,它已经很努力地增加一些口气了。
我还尝试了一下把扣子接入到了“西海子曰”的公众号,你在后台留言就是一个bot来回答你,这个bot还没怎么经过训练,用的是豆包的大模型,也增加了其他几个跟房产相关的内容,如果你愿意尝试,可以试试哦,看看他的回答有多少机器味?
Loading...