最近更新
阅读最多
评论最多

应怜鱼乱红纱涨,莫道青衿梦里游
之前用CPA来搭配小龙虾,这次我们换个新的AI模型网关---AxonHub,正好给新晋选手---小龙猫来配置使用。先打开下面的AxonHub应用链接,在懒猫商店里安装。首次打开会有个配置向导,小白不懂的话,直接默认点击下方开始部署即可。注册账号密码进入应用后,首先需要创建账号密码,按需对应填写即可,然后点击“初始化系统”。进入后,填写你创建的账号密码进行登录。首次进入应用会有个配置向导。如果你想先了解一下这个应用的话,可以点击“开始引导”,跟随它的指引一一了解功能。这里我们就直接点击“跳过引导”,到下一步。配置AI模型跟CPA一样,需要先配置AI厂商模型。点击左侧的“渠道”,然后点击页面右上角的“添加渠道”。在新跳出的窗口可以看到左侧基本上主流的AI服务商都包含在内了,右侧就是每个服务商需要设定的配置信息。这里我们先配置Deepseek,可参考下图。左侧选择“Deepseek”渠道右侧“渠道名称”可自己修改下方“API Key”填入你的ds官方key点击“获取”,即可在右侧看到对应可以使用的模型根据自己的爱好进行配置,点击“确认选中”需要在默认测试模型中选择一个模型,用于测试API Key是否可行填写完所有之后就可以点击右下角的“创建”创建完成之后,我们就可以看到在渠道中新增的DS配置,这时还需要点击打开“状态”,点击“测试”看连通性,显示“测试成功”后,就可以点击下方的“启用”。这样我们才算真正的把DS接入到AxonHub上。如果你有算力仓,也可以按照下图来进行配置左侧选择“OpenAI”渠道(因为算力仓地址兼容OpenAI渠道,可以选这个进行配置)右侧“渠道名称”可自己修改"Base Url"需要改成算力仓Ollama地址,即“https://ollama-ai.你的设备名.heiyu.space/v1”下方“API Key”可随意填写点击“获取”,即可在右侧看到对应可以使用的模型根据自己的爱好进行配置,点击“确认选中”需要在默认测试模型中选择一个模型,用于测试API Key是否可行填写完所有之后就可以点击右下角的“创建”配置完成之后,还是安装上述再打开“状态”-“测试”-“启用”如果你购买的是三方API厂商的服务的话,也可以参考下图配置。流程也是和上述算力仓配置一样,这里就不多赘述了。到这里,就已经完成了AI服务商的配置并启用了。配置API Key为了能访问使用AxonHub,我们需要先配置API Key。点击左侧“API密钥”,进入页面后,点击右上角“创建API Key”,在跳出的窗口内,可按需修改名称,类型默认“用户”即可,然后点击“创建”。创建完之后,我们就可以看到API Key,以及对应的AI客户端的配置示例(如果你正好有用到的话,可以复制这些配置进行替换)。我们这里需要关注的是这个对外的“Base Url”的填写:如果你用兼容OpenAI的客户端,填写“https://axonhub.你的设备名.heiyu.space/v1”如果你用兼容Anthropic的客户端,填写“https://axonhub.你的设备名.heiyu.space/anthropic”至此,你已经配置好了AI模型和API Key,下一步就是在小龙猫里使用配置小龙猫并使用打开下方小龙猫链接并安装新建助手流程就不多说了,这里直接给出AI配置方式,见下图:点击左侧“AI配置”“供应商名称”可自行填写“AI协议”可选择“OpenAI”,也可选择“Anthropic”“API URL”根据你选择“AI协议”,填写对应的地址,这里我就填写“https://axonhub.你的设备名.heiyu.space/v1”"API Key"填写你在AxonHub里获取的API Key”模型名称“里,点击下拉箭头选择获取模型选择你需要的模型配置好后,点击测试,显示”测试成功“,即表示配置完成了。点击”添加AI供应商“保存配置。但实际情况是,截止到目前为止,你配置完之后聊天会显示”API call failed after 3 retries: Connection error.“ 连接错误这时候,你需要用到端口转发工具,对AxonHub进行端口转发配置配置后,只需要对应修改下”API URL“改成你的IP地址,见下图。这时候选择模型进行验证会显示”验证失败“,不用管,点击保存即可。然后你进行对话,这时候就可以用了。AxonHub还有个好处就是,你可以在左侧”请求“里,查看到最近一次”请求详情“,方便你进行查看。主页面你也可以查看AI模型厂商的调用情况,方便你管理多个上游AI模型厂商。




应怜鱼乱红纱涨,莫道青衿梦里游
最近网上都是各种大神在玩OpenClaw(俗称“小龙虾🦞”),在畅玩的同时,都有一个问题,那就是token的燃烧速度太快了,你订阅的coding plan有时都不够你用,那这个时候就轮到CliProxyAPI出场了。先来看看成果,这是我配置完之后的信息这是可用的模型,基本上主流御三家+国内主流大模型都集中起来了。好处就是你可以配置多个API供应商来满足你的日常使用,并且可以通过一个API地址和API Key来在你的🦞里随意切换你需要的模型进行任务安排。接下来,我们就开始配置流程,首先是安装CliProxyAPI1. 打开应用,复制密码lazycat,点击打开 Dashboard2.点击左侧API供应商,下拉找到OpenAI 兼容提供商,点击添加提供商这里可以配置任何兼容OpenAI的三方供应商,包括国内主流大模型。3. 配置供应商API地址、API Key和所需模型这边我以公益站来演示4. 配置选择所需模型点击模型列表右侧的从从/models 获取,然后在下图获取到的模型里选择你需要的模型,点击添加所选模型5. 配置完之后,可对模型进行测试,看是否可用,ok之后点击保存可以完成配置因公益站有时候命名方式不一致,需要通过模型重命名或者指定模型来统一管理调取Codex API配置在API供应商里,除了OpenAI 兼容提供商之外,也有御三家的API配置。如果你的公益站只提供了CLI模型的话,那你可以再这里进行配置。如果你不确定的话,你可以先在OpenAI 兼容提供商进行配置,如果无法获取模型的话,你可以再切换在这里进行配置。还是跟上面一样,填写API地址和API Key,然后选择models来获取模型,添加后保存即可这样,你就把一个公益站的模型配置完成了,并且选取你所需要的模型。那如果我找不到公益站,又不想花钱,但我就想体验国内大模型呢?那你可以试试下面两种方式1. Nivida在这里,你也可以体验到国内最新的模型,比如glm-5,kimi-k2.5和minimax-m2.1打开网址(), 点击右上角login,输入你的邮箱地址它会自动跳转到创建Nvidia账户页面,创建账户我这边用的是gmail邮箱,你也可以用其他邮箱服务你的邮箱就会收到验证码,输入验证码,点击继续跳转到下图页面,可不勾选,直接点击提交需要填写云端账号名称,可自行配置填写,填写后点击下方创建创建后,继续跳转页面,你会看到上方需要你先进行验证,点击右上角verify需要先进行手机号码验证,可用国内号码。配置后点击Send Code来获取验证码注意:先填写手机号码,前缀是+86,后面填写你的手机号码;再选择国家 China。如果先选择国家的话,手机号码前缀不会变,删除又需要重选国家。把验证码填入进去验证即可完成之后,点击右上角用户,选择API Key在页面点击Generate API Key填写名称,过期时间可选Never Expire(永不过期)这样,你就获取了一个永不过期的免费API了还是回到CliProxyAPI的上面配置API供应商的界面,对应填写供应商名称、Base url(, 和API Key点击获取模型,因Nivida提供的模型实在是多,所以你可以通过关键词来查找因Nivida家的模型名称比较长,你可以对应在后面填写映射名称,方便你管理和调用。点击测试模型是否可用,ok之后就可以保存了。这样你就可以免费调用Nivida家API来使用国内主流AI大模型。当然,有个注意点就是它有个API Rate Limit为40 rpm,也就是你每分钟最多发 40 个请求,再多就会被限流。对于日常使用就足够了。2. Ollama如果你有懒猫算力仓的话,你可以直接使用算力仓里的模型,按照下图进行配置选择你需要的模型即可,比如“gpt-oss”如果你没有算力仓的话,也没有关系,你也可以网络搜索来获取一些公开的Ollama地址。这里我就提供一个来给大家测试使用,可以按照下图进行配置,也可以使用glm-5,kimi-k2.5和minimax-m2.1哦。有了这两个免费的API,应该足够你日常配置使用🦞了。接下来,我们就需要在OpenClaw里配置CliProxyAPI了。首先,我们回到CliProxyAPI,点击左侧配置面板,下拉找到API密钥,点击创建一个,密钥可自行填写或者生成。接下来下载OpenClaw打开应用,点击左侧Config,点击Raw,在API地址配置后点击save,保险起见,记得再重启下应用。以下就是我在telegram里配置后,使用“/models”命令来切换模型至此,你的🦞就可以愉快地在互联网上遨游了。接着奏乐,接着舞!!!



mmmmmm
对要绑定的算力舱进行开机。打开手机的懒猫微服客户端,在应用商店搜索 AI 进行安装。打开之后点击左上角的 ⚙ 进入设置界面。在设置页面点击 添加算力舱 。进入查找页面,手机靠近要初始化的算力舱,等待出现设备。选择查找到的设备,点击开始绑定。没有插网线的设备,只显示设备名称。点击需要连接的 WiFi 输入密码,点击加入。在等待设备确认页面,按下添加的算力舱背后的配对按钮,完成绑定到这一步就绑定完成。结语为了网络的稳定和速度推荐使用有线连接网络



跨境电商从业者
一、为什么要用语音识别做字幕提取1.1 ASR的优势时间线准确:精确到毫秒级的时间戳适用范围广:无字幕视频、软字幕、音频文件都能处理配合翻译:可以先识别原语言字幕,再用AI翻译成目标语言1.2 适用场景视频没有硬字幕(如采访、讲座、播客)需要多语言字幕(识别后翻译)音频文件转文字视频翻译工作流:原语言识别 → AI翻译 → 双语字幕1.3 faster-whisper-large-v2 的特点基于 OpenAI Whisper 模型优化支持多语言识别(100+语言)速度快、准确率高算力舱内置API,无需额外部署二、环境准备2.1 必需工具FFmpeg:用于音频提取和分割(需添加到系统PATH)Python 3.8+:运行脚本算力舱API地址: https://asr-ai.{这里填你的用户名}.heiyu.space/v1/audio/transcriptions将 替换为你的实际用户名2.2 Python依赖2.3 验证FFmpeg三、ASR字幕识别的处理思路3.1 整体流程图3.2 五步详解第一步:音频提取使用 FFmpeg 从视频中提取音频轨道转换为 MP3 格式(64k比特率、32kHz采样率)压缩音频大小,加快上传和识别速度第二步:音频分割将长音频按固定时长(如15分钟)分割成多个片段避免单次API调用超时控制单个请求的文件大小第三步:顺序ASR识别将音频片段逐个提交到算力舱 faster-whisper API提供交互式语言选择菜单(8种常用语言)必须明确指定语言代码(不支持 auto 自动检测)直接返回 SRT 格式字幕,包含精确时间轴单线程顺序处理,避免API并发限速第四步:字幕合并将多个片段的 SRT 文件按时间轴合并自动调整时间偏移,保证连续性处理跨片段的字幕断句问题第五步:AI 智能校对使用长上下文大模型(Claude、Gemini等)校对修正专有名词、标点符号、语义不通顺等问题提供视频背景信息,提升校对准确率四、算力舱API调用方式4.1 API配置4.2 调用示例重试机制示例:4.3 核心要点使用 方式上传音频文件支持多种音频格式:MP3、WAV、M4A、FLAC等 可选:json、text、srt、vtt返回的 SRT 包含序号、时间轴、字幕文本4.4 多语言支持语言代码适用场景中文zh国产影视、教学视频日文ja日剧、动漫、日本综艺英文en欧美影视、TED演讲韩文ko韩剧、韩综西班牙语es西语影视、拉美内容法语fr法语影视、欧洲内容德语de德语影视、欧洲内容俄语ru俄语影视、东欧内容重要说明:⚠️ API 不支持 auto 自动检测,必须明确指定 ISO 639-1 语言代码✅ 使用交互式菜单选择,避免输入错误的语言代码✅ 指定正确的语言代码可以显著提升识别准确率4.5 交互式使用体验脚本提供了友好的交互式界面,新手也能轻松上手:视频文件选择单个文件:自动选择,无需手动输入多个文件:显示编号列表供选择,显示文件大小Windows去重:避免 和 重复显示同一文件语言选择菜单命令行快速使用实时进度显示五、AI辅助开发5.1 生成脚本的提示词5.2 字幕校对提示词通用ASR字幕校对提示词六、参数调优建议6.1 音频分割时长调整15分钟(默认):适合大部分场景,平衡速度和稳定性调整方法:修改脚本中的 参数6.2 音频质量调整64k/32kHz(默认):适合语音识别,文件小速度快128k/44.1kHz:追求更高识别准确率32k/16kHz:极速模式,牺牲部分准确率调整方法:修改FFmpeg的 和 参数6.3 语言选择方式交互式菜单选择(推荐新手):显示8种常用语言的中文菜单,避免输入错误命令行参数指定(推荐熟练用户):使用 参数直接指定语言代码重要说明:⚠️ API 不支持 auto 自动检测,必须明确指定 ISO 639-1 语言代码(zh/ja/en/ko等)✅ 使用交互式菜单可以避免输入错误的语言代码✅ 指定正确的语言代码可以显著提升识别准确率调整方法:七、脚本速度实测7.1 性能数据以30分钟视频为例(基于实际测试):音频提取:约 18 秒(本地FFmpeg处理)音频分割:约 1 秒(本地FFmpeg处理)ASR识别:约 140-270 秒/片段(取决于API负载,单线程顺序处理)字幕合并:约 0.1 秒总耗时:约 300 秒(5分钟左右)7.2 速度对比方法30分钟视频耗时优势劣势ASR识别约5分钟速度快、时间轴准依赖音频质量OCR识别100-200秒适合硬字幕需要画面清晰八、常见问题排查8.1 识别效果差问题表现:字幕缺失:部分对话没有被识别识别错误多:大量同音字误识时间轴不准:字幕与画面不同步解决方案:字幕缺失 → 检查音频质量,提高音频比特率识别错误多 → 必须指定正确的语言代码(API不支持auto)时间轴不准 → 检查音频分割和合并逻辑8.2 API调用失败问题表现连接失败:无法连接到算力舱返回错误:API返回4xx/5xx错误解决方案:连接失败 → 确保打开懒猫微服和算力舱,检查网络连通性返回错误 → 查看响应内容,检查音频格式和参数配置(特别是language参数必须是有效的ISO 639-1代码)8.3 处理速度慢问题表现:音频提取慢:FFmpeg处理时间长ASR识别慢:API调用耗时长整体慢:总处理时间超出预期解决方案:音频提取慢 → 检查FFmpeg是否正确安装,视频编码是否支持ASR识别慢 → 检查算力舱负载,考虑错峰使用整体慢 → 降低音频质量(128k→64k)8.4 多语言识别问题问题表现:混合语言识别不准:视频中有多种语言方言识别困难:地方口音重解决方案:混合语言 → 分段处理,不同语言片段使用不同language参数方言识别 → 推荐用阿里的FunASR识别九、进阶应用:视频翻译工作流9.1 完整流程9.2 AI翻译提示词十、总结10.1 核心优势速度快:30分钟视频约5分钟处理完成(这是large版本的,不是tiny,精度更高)时间轴准:精确到毫秒级,无需手动调整多语言支持:支持中文、日语、英语、韩语等多种语言10.2 适用场景总结场景推荐方案理由无字幕视频ASR识别唯一选择硬字幕视频OCR识别更准确需要翻译ASR+AI翻译完整工作流音频文件ASR识别直接处理多语言视频ASR分段识别灵活切换语言

跨境电商从业者
一、为什么要用OCR做字幕识别对于视频字幕提取,ASR(语音识别)通常是第一选择,但实际使用中会遇到不少问题。一方面,ASR 在嘈杂环境下干扰多,对专业名词、人名、地名的识别准确率低,经常出现误听,后期校对工作量巨大。另一方面,很多视频已有精校翻译,只是网上流传的精校字幕视频往往夹带各种"私货",水印、广告、推广链接、视频压缩严重太模糊等,观看体验很差;这时候,OCR字幕识别就成了更实用的方案:直接从精校字幕视频画面中识别文字,既能避开精校字幕的广告污染,又能获得相对准确的原始字幕内容。懒猫算力舱支持 PaddleOCR 和 DeepSeek OCR 两种引擎。对于常见的影视剧、综艺节目等简单字幕格式(单行或双行、字体规整、背景对比度高),PaddleOCR 的识别速度更快,是批量处理视频字幕的理想选择。接下来我们将基于 PaddleOCR 算力舱 API,搭建一个自动化的字幕提取工具。适用场景与局限性适合使用OCR的场景:视频有硬字幕(烧录在画面中的字幕)字幕区域固定(通常在画面下方)画面清晰,字幕对比度高字体规整,无过度艺术化效果不适合的场景:软字幕(可以关闭的外挂字幕)→ 直接提取字幕文件更快字幕位置不固定(如弹幕、动态字幕)画面模糊、压缩严重艺术字体、手写字体二、环境准备2.1 必需工具FFmpeg:用于视频抽帧(需添加到系统PATH)Python 3.8+:运行脚本算力舱API地址: https://ocr-ai.{这里填你的用户名}.heiyu.space/ocr将 替换为你的实际用户名2.2 Python依赖2.3 验证FFmpeg如果显示版本信息,说明FFmpeg已正确安装。三、OCR字幕提取的处理思路整个字幕提取流程可以分为五个步骤:第一步:视频抽帧使用 FFmpeg 按固定时间间隔(比如每5秒)从视频中截取一帧画面。这样既能覆盖完整的字幕内容,又不会产生过多冗余数据,在识别精度和处理速度之间取得平衡。第二步:智能裁剪由于字幕通常出现在画面下方,我们只需要截取底部 1/4 区域进行识别。这样可以大幅减少图片大小,提升识别速度,同时避免画面上方的无关文字(如台标、角标、弹幕等)干扰识别结果。第三步:并发 OCR 识别将裁剪后的图片通过多线程方式批量提交到算力舱 PaddleOCR API,充分利用云端算力实现快速处理。相比单线程逐张识别,并发处理可以将总耗时缩短数倍。第四步:结果清洗过滤掉广告水印、重复内容等噪声,将连续多帧中相同或相似的字幕合并成一条完整记录,并按时间轴生成标准的 SRT 字幕文件。第五步:AI 智能校对使用长上下文的大模型(如 Claude、Gemini 等)对生成的字幕进行二次校对。在提示词中提供视频的人物信息、背景介绍、专业术语等上下文,帮助大模型理解对话场景,识别并修正典型的 OCR 错误(如形近字误识、标点符号错误、语义不通顺等),进一步提升字幕质量。这样五步流程就完整了。通过OCR提取+AI校对的组合,可以获得质量较高的字幕文件,既避免了精校字幕的广告污染,又能保证较高的准确率。流程参数速查表步骤操作关键参数说明1视频抽帧间隔5秒使用FFmpeg,平衡精度与速度2智能裁剪底部1/4只保留字幕区域,提升速度3OCR识别8线程并发调用算力舱API,快速处理4结果清洗相似度0.8去重、合并、生成SRT5AI校对长文本模型修正错别字、补充标点四、算力舱API调用方式4.1 API配置算力舱的调用方式非常简洁:4.2 调用示例4.3 核心要点使用 方式上传图片文件请求参数通过 字段以 JSON 字符串形式传递返回结果是包含 数组的 JSON,每个元素有 字段4.4 关键参数说明: 图片最大尺寸,默认1920(像素): 图片分块时的重叠区域,默认100(像素): 内存限制,默认1024(MB): 是否检测文字区域,建议true: 是否识别文字内容,建议true: 是否进行文字方向分类,建议true五、AI辅助开发5.1 生成脚本的提示词基于以上流程,可以让AI直接使用以下提示词开发OCR识别脚本:5.2 字幕校对提示词通用OCR字幕校对提示词六、参数调优建议6.1 抽帧间隔调整5秒(默认):适合大部分场景,速度快3秒:字幕切换频繁时使用2秒:追求高精度,但处理时间翻倍调整方法:修改脚本中的 参数或环境变量6.2 裁剪区域调整底部1/4(默认):适合标准字幕位置底部1/3:字幕位置偏上时使用自定义区域:双语字幕或特殊布局调整方法:修改FFmpeg的 参数,格式为 6.3 相似度阈值调整0.8(默认):平衡去重和保留0.9:字幕变化频繁,减少误合并0.7:字幕重复多,加强去重调整方法:修改脚本中的 参数6.4 并发线程数8线程(默认):适合大部分情况调整方法:修改脚本中的 参数或环境变量七、脚本速度实测脚本源码:30分钟视频大约需要108秒的提取时间,其中抽帧是在本地进行的,默认固定间隔(默认5秒),如果觉得字幕偏移太大可以改成3秒或两秒。注意:提取后一定要用"通用OCR字幕校对提示词"再做一轮校对,不然字幕OCR识别错误会很严重。八、常见问题排查8.1 识别效果差问题表现:字幕缺失:部分字幕没有被识别出来识别错误多:大量形近字误识、乱码广告水印多:过滤不干净解决方案:字幕缺失 → 减小抽帧间隔(5秒→3秒)识别错误多 → 检查画面清晰度,调整裁剪区域广告水印多 → 调整黑名单阈值(5%→3%)8.2 时间轴错位问题表现:整体偏移:所有字幕时间都不对局部错位:部分字幕时间不准解决方案:整体偏移 → 检查第一帧时间计算(应从0秒开始)局部错位 → 减小抽帧间隔提高精度8.3 API调用失败问题表现:超时错误:请求超过300秒连接失败:无法连接到算力舱返回错误:API返回4xx/5xx错误解决方案:超时 → 增加timeout参数(300→600)连接失败 → 确保打开懒猫微服和算力舱,检查算力舱网络连通性,确认API地址正确返回错误 → 查看响应内容,检查图片格式和参数配置8.4 处理速度慢问题表现:抽帧慢:FFmpeg处理时间长OCR慢:API调用耗时长整体慢:总处理时间超出预期解决方案:抽帧慢 → 检查FFmpeg是否正确安装,视频编码是否支持,抽帧是在本地电脑进行的OCR慢 → 增加并发线程数(8→16)整体慢 → 增大抽帧间隔(5秒→10秒)或降低图片分辨率




心心念念心心
前言闲来无事,2026年第一更。写推文当然要从最吸引人的地方开始,然后再逐步补充细节,让各位公子小姐能够快速上手才是关键。由来看到生态越来越丰富,开心的,发现好像还没有这个系列,稍微补一补,本系列主要以图形化介绍为主,力求深入浅出而不陷入过多原理阐述。在开始前,我需要先提及全系列会涉及的软件和硬件工具:软件:NoMachine、Microsoft Remote Desktop硬件:HDMI欺骗器了解这些工具的读者想必已心有所属,还不太清楚的朋友也不用着急,可以催更我或自行网上搜索相关资料。全系列完成后的效果如下算力舱配置成功登入算力舱后(连接HDMI至显示器,接上鼠标和键盘,进入桌面),按以下步骤操作:第一步:打开左下角菜单第二步:打开设置(Setting)第三步:找到共享(Sharing)选项需要打开上图圈出的 Remote Desktop 和 Remote Login 两项。以下是 Remote Desktop 的配置参考:提示:密码会在每次电脑重启后重置,启用RDP前还需输入管理员密码进行验证。当然,虽然存在一些弱化安全策略的方法,但出于安全考虑,不建议采用或绕过这些验证机制。客户端配置本节以局域网访问为例说明(若需使用NoMachine域名等方式,将在后续文章中介绍)。第一步:下载 Microsoft Remote DesktopWindows、Android、iOS 都提供该应用,请从官方渠道或应用商店下载,确保开发者为Microsoft(其他来源请勿下载)。若仅使用RDP协议,此软件完全足以满足需求。MAC用户注意,该应用在Mac上的名称为:Windows App第二步:添加PC连接打开应用后,点击"+"按钮,从下拉菜单中选择"Add PC"第三步:进行配置重要提示:此处的用户名和密码应与前述 Remote Desktop 部分的设置相对应,而非算力舱的登入凭证,而是用于远程桌面连接的用户名和密码。(这里确实容易混淆,请仔细对应!)注意这里的用户名和密码对应前面remote desktop部分设置的用户名和密码,不是算力舱的用户名密码,是登入算力舱(远程桌面)的用户名和密码(圈圈圆圆圈圈,绕口令的感觉)。第四步:保存配置,点击左下角的Add(新增)或者Save(保存)开始连接所有配置完成后,即可开始远程连接:敬请期待下期内容将继续聊聊:NoMachine:其在此场景中的应用与基础配置(用于减少算力舱重启需要重新登入设置remote desktop的麻烦)HDMI欺骗器:揭秘其使用的必要性及工作原理(你就当是骗机器插上显示器啦)我们下次见!



跨境电商从业者
这么强的声音克隆,居然没人用?超级简单的使用演示视频,看完就会!ffmpeg指令1. 分离高质量音频分离音频的ffmpeg指令2. ffmpeg安装方法没安装ffmpeg的,可以按照以下步骤安装:步骤1:安装 Scoop打开 PowerShell:Set-ExecutionPolicy RemoteSigned -Scope CurrentUserirm get.scoop.sh | iex步骤2:安装 FFmpegscoop install ffmpeg视频用的Tim音频文章只能上传视频,所以音频后缀是.mp4,可以保存后,把后缀改成.wav即可。这段参考音频可用于复刻Tim声音,可以自己玩玩,非商用。


keep calm and carry on
闲聊可不看想来有不少懒猫微服和算力舱的用户并非是那么专业的开发者,但是至少是一个喜欢折腾的好动少年,对新奇的事物,高速发展的技术,有着孩童般的好奇,当然同时也是有着足够行动力的践行者。我是如此,本身所想是给家里老婆,妹妹和父母们整一个nas玩玩,纯粹当作照片视频的在线存储用的,刚好看到了王总的懒猫,后面也发现他是深度系统的创始人,这让我想到了多年前,自己性能孱弱的thinkpad笔记本跑deepin用来办公的日子,于是就下单了微服以及后续的算力舱。随着使用频次的日渐增多,确实觉得这个小玩具越来越讨喜了,我自己本身是有一点点开发经验的,但是不多,对于ai有自己的需求,同时却能力不足,所以退而求其次,使用了较为简单的方案,满足了我。我的需求是想用基于自己知识库训练的模型来批量产出满足自己小项目的内容。闲话少说,步入正题。算力舱软件算力舱中的可以拉取和调用大模型的软件,一个是web ollama,一个是open webui,如下所示:打开webollama后,我们直奔models,可以看到其默认已经配置好的大模型大多数都是qwen的,这个其实也很不错,然而我们肯定是不满足于这么少的模型,况且我这个小项目还是金融相关的,那deepseek又是量化机构研发的,开干吧。第一步:webollama拉取模型打开找到deepseek-r1,会发现其实也要不少的,我们选择其中的deepseek-r1:8b,复制下来后,填写到pull model的输入框中,当然我其实也下载了14b和70b的,但是后面在处理任务的时候还是比较慢的,就没有继续使用了。这个添加模型后的拉取步骤是没有进度条的,好在家里的网速还不错,ollama拉取的速度还算可以,不一会儿就在模型的列表中出现了。更具体的教程可以看这个官方文档:第二步:open webui设置打开算力舱的open webui软件后,需要我们自己注册账号和密码,这个你只要能够记住就可以了,随便写。之后,刚刚在ollama中拉取的本地模型就可以使用,我们选取一个deepseek-r1:latest之后进行对话即可,当然不要沉迷于此,我们的目标是建立一个基于自有知识库的优质内容产出模型。语义向量化模型直接点击左下角的黄色头像,选择管理员面板,找到里面的文档,然后设置好我们的语义向量化模型,因为我是openai的plus会员,想着能用就用,把openai后台生成的api填写进去之后就可以了,当然你也可以使用本地的ollama的,具体的api参见官方文档:知识库的添加看图即可知识库的上传完成后,这里的设置就算完成了。模型的添加还记得刚刚的工作空间吧?点击哪里的模型和右边的+号,会进入到这个界面:按照图中设置的完成保存后,就可以了。提示词我们在工作空间中设置好给一个标识,后面可以/命令直接调用,也是蛮方便的。最终呈现设置完了以上的内容后,我们用一个设置好的提示词来尝试着写一下,可以看到底部的信息中已经引用了我们自有知识库中的知识了。




应怜鱼乱红纱涨,莫道青衿梦里游
今天我们就用Dify来复刻一下吴恩达翻译神器,并且调用算力仓Ollama开源模型来解决一下token燃烧的焦虑。注意,调取算力仓模型需要购买一台算力仓才能配合使用哦!!!如无,可以使用其他模型供应商进行测试。1. 先在Dify里安装Ollama模型插件,进行配置,这里我就直接演示如何配置算力仓模型,点击选择模型,按照要求对应填写,可参考下图。2. 回到Dify主页,点击工作室,点击创建空白应用,见下图。3. 选择工作流,应用名称和描述可按需自定义填写,点击创建4. 点击开始,在右侧选择加号,进行输入变量配置5. 在变量对话框里,选择文本,按照下面的内容对应添加进去,需要配置4个。除了Souce_text是选择段落外,其余都是文本。输入变量配置:source_text: 需要翻译的具体文本内容作用:接收用户要翻译的原文,支持长文本source_lang: 源语言作用:指定原文的语言,如"English"、"Chinese"等target_lang: 目标语言作用:指定要翻译成的目标语言country: 国家地区偏好(可选)作用:用于调整翻译风格,使其符合特定地区的语言习惯下图是添加之后的效果6. 点击右上角加号,选择LLM,进行添加模型供应商7. 名称改成“初始翻译”,右侧SYSTEM里,输入下面的系统提示词, 和 请点击“x“对应选择替换变量。然后再点击下方添加消息你是一位专业的语言学家,专门从事{source_lang}到{target_lang}的翻译工作。8. 在User里添加以下用户提示词,跟上面系统提示词一样,点击”x“对应替换变量这是一个从到{source_lang}到{target_lang}翻译任务,请提供这段文本的{target_lang}翻译。请只提供翻译内容,不要提供任何解释或其他文本。{source_lang}: {source_text}{target_lang}:9. 点击初始翻译右上角加号,选择条件分支点击添加条件,选择country后面选择不为空下面两个节点也都分别点击选择下一个节点名称改一下,一个为反思优化-地区偏好,另一个为反思优化。判断逻辑:如果提供了 country 参数:→ 走地区优化的反思优化路径如果未提供 country 参数:→ 走标准反思优化路径10. 反思优化节点配置带地区偏好的反思优化还是按照上述配置系统提示词和用户提示词,按照下图对应填写,记得对应修改变量系统提示词你是一位专业的语言学家,专门从事到{source_lang}的{target_lang}翻译工作。你将获得一段源文本及其翻译,你的目标是改进这个翻译。用户提示词你的任务是仔细阅读一段源文本及其从{source_lang}到{target_lang}的翻译,然后给出建设性的批评和有助于改进翻译的建议。最终的翻译风格和语气应该符合{target_lang}地区的口语表达方式。源文本和初始翻译用XML标签<SOURCE_TEXT></SOURCE_TEXT>和标记如下:<SOURCE_TEXT>{source_text}</SOURCE_TEXT>< TRANSLATION>{初始翻译的结果}< /TRANSLATION>在写建议时,请注意是否有以下方面可以改进:(i) 准确性(通过纠正添加错误、误译、遗漏或未翻译的文本)(ii) 流畅性(通过应用的语法、拼写和标点规则,确保没有不必要的重复)(iii) 风格(通过确保翻译反映源文本的风格并考虑文化背景)(iv) 术语(通过确保术语使用的一致性并反映源文本领域;确保只使用中对等的习语)请列出具体的、有帮助的和建设性的建议来改进翻译。每个建议应针对翻译的一个具体部分。只输出建议,不要输出其他内容。标准反思优化跟上面一样进行设置系统提示词你是一位专业的语言学家,专门从事到{source_lang}的{target_lang}翻译工作。你将获得一段源文本及其翻译,你的目标是改进这个翻译。用户提示词你的任务是仔细阅读一段源文本及其从{source_lang}到{target_lang}的翻译,然后给出建设性的批评和有助于改进翻译的建议。源文本和初始翻译用XML标签<SOURCE_TEXT></SOURCE_TEXT>和标记如下:<SOURCE_TEXT>{source_text}</SOURCE_TEXT>< TRANSLATION>{初始翻译的结果}< /TRANSLATION>在写建议时,请注意是否有以下方面可以改进:(i) 准确性(通过纠正添加错误、误译、遗漏或未翻译的文本)(ii) 流畅性(通过应用的语法、拼写和标点规则,确保没有不必要的重复)(iii) 风格(通过确保翻译反映源文本的风格并考虑文化背景)(iv) 术语(通过确保术语使用的一致性并反映源文本领域;确保只使用中对等的习语)请列出具体的、有帮助的和建设性的建议来改进翻译。每个建议应针对翻译的一个具体部分。只输出建议,不要输出其他内容。相比较带地区偏好的反思优化少了“最终的翻译风格和语气应该符合{target_lang}地区的口语表达方式。”11. 配置变量聚合器点击下方加号,选择变量聚合器然后点击了两个反思优化右上角加号,拖拽到变量聚合器上变量赋值右侧,点击加号,把反思优化-地区偏好和反思优化增加进去点击选择下一个节点,选择LLM新节点名称改为优化翻译12. 配置优化翻译还是按照上述配置系统提示词和用户提示词,按照下图对应填写,记得对应修改变量系统提示词你是一位专业的语言学家,专门从事{source_lang}到{target_lang}的翻译编辑工作。用户提示词你的任务是仔细阅读并编辑一个从{source_lang}到{target_lang}的翻译,同时考虑专家建议和建设性的批评。源文本、初始翻译和专家语言学家的建议分别用XML标签<SOURCE_TEXT></SOURCE_TEXT>、和<EXPERT_SUGGESTIONS></EXPERT_SUGGESTIONS>标记如下:<SOURCE_TEXT>{source_text}</SOURCE_TEXT>< TRANSLATION>{初始翻译的结果}< /TRANSLATION><EXPERT_SUGGESTIONS>{反思大模型的输出结果}</EXPERT_SUGGESTIONS>请在编辑翻译时考虑专家建议。编辑翻译时请确保:(i) 准确性(通过纠正添加错误、误译、遗漏或未翻译的文本)(ii) 流畅性(通过应用{target_lang}的语法、拼写和标点规则,确保没有不必要的重复)(iii) 风格(通过确保翻译反映源文本的风格)(iv) 术语(不适合上下文的术语、使用不一致)(v) 其他错误输出:只输出新的翻译结果,不要输出其他内容。12. 结束进程点击优化翻译右上角加号,选择结束节点点击输出变量右侧加号,选择优化翻译即可至此,这个翻译工作流就基本上配置成功了,下面我们就来测试一下实际效果。实际演示点击运行,对应填写相关内容,点击开始运行可以点击追踪,查看进度原文:In the flood of darkness, hope is the light. It brings comfort, faith, and confidence. It gives us guidance when we are lost, and gives support when we are afraid. And the moment we give up hope, we give up our lives. The world we live in is disintegrating into a place of malice and hatred, where we need hope and find it harder. In this world of fear, hope to find better, but easier said than done, the more meaningful life of faith will make life meaningful.结束后,点击结果,即可看到最终翻译内容最终翻译:在黑暗的洪流中,希望是光。它带来安慰、信仰和信心,当我们迷失时给予指引,恐惧时给予支持。一旦我们放弃希望,就是放弃了生命。我们生活的世界正在崩溃成一个充满恶意和仇恨的地方,我们需要希望,但找到它却比说起来难得多。在这个充满恐惧的世界里,我们渴望找到更好的生活,但信仰赋予生活更深层的意义。你可以查看已深度思考来看看思考过程至此,整套翻译工作流已正常运行了。点右上角的发布就可以在探索里直接使用了。我把这个工作流上传到了网盘里,链接如下。如果失效了,可以在群里找我要。



跨境电商从业者
作为编程小白,在AI工具指导下部署项目时,容易执行一些自己不认识的指令,最后出现莫名其妙的bug。比如我的comfyui经常出现加载不进去的问题,为了处理好这些奇怪的bug,我找了官方教程,折腾了好久,刷机才解决,下面分享我自己的刷机流程。官方教程入口:懒猫微服应用AI Pod或懒猫AI浏览器的文档(有编程基础的可以直接看官方文档,小白可以先跳过往下看)网址:https://docs-ai.{你的微服名字}.heiyu.space/os/flash-jetson.html(需要先打开懒猫微服)刷机准备刷机需要自己准备一台Linux设备,一根可以传输数据的Type-C转USB线。Window设备兼容性有点小问题,我把USB设备挂载到docker上后,运行后面的刷机命令总是会中断。只有Window设备想刷机的,可以用VMware Workstation虚拟机部署ubuntu,在ubuntu上操作刷机。操作流程分为三步:一,使用自己的Linux设备,运行刷机镜像系统首先在自己的Linux设备的Terminal上拉取镜像执行运行后会出现:二,用Type-C转USB线连接自己的Linux和算力仓开始刷机用带数据传输功能的Type-C 转 USB 线连接算力仓,USB口接自己的Linux设备,算力仓接Type-C口。然后在算力仓的Terminal中(或者用Finalshell远程连接),运行进入recovery模式。(算力仓默认密码是nvidia)在自己的Linux设备上运行确保识别到算力仓Nvidia Corp.APX然后运行运行时间比较久,成功后,算力仓会自己重启。三,配置微服AI服务客户端和 docker 存储目录给算力仓联网后,在算力仓的Terminal中(用Finalshell远程连接)运行运行结束后,算力仓会自己重启,刷机完成。之后在懒猫微服的AI Pod中,重新连接算力仓即可正常使用。




远程工作,Steem开发者,Steem见证人
购买 AI 算力仓后,想要看看其写代码的能力如何。我平时使用的代码工具是 VSCode,于是在其插件市场里搜索了一下,发现有一款叫做 做的非常好。下面就简单介绍一下如何使用 Continue + Ollama 来让 VSCode 使用上懒猫 AI 算力仓。1.首先我们在 VSCode 的插件市场搜索 ,然后安装扩展。2.扩展安装完成后,在左边栏找到 插件点击打开,在插件界面的右上角找到小齿轮,点击进入设置面板。3.设置面板左边栏,找到 Agent,点击后,右上角有一个➕,点击创建新的 Agent。Agent 的配置,可以参考官方文档,比如我们想要使用 Ollama,那么可以看官方关于,把你的 Ollama 中的模型写到配置文件中即可。这里给出一份我的一份配置,目前还处于测试中。其中需要注意 role 配置。Continue 有 Role 的概念,有 chat, edit, autocomplete 等。因为每种模型有自己擅长做的事情,因此你需要设置一下。具体也可以4.Agent添加完成后,就可以回到最初的界面了,选择刚才创建的 Agent,然后选择那种工作模式(chat,agent,plan),最后选择你添加的模型,就可以开始正常工作了。



代码是生活,诗歌是精神。做一个诗意的工程师。
前言在当今 AI 大模型时代,数据隐私和安全问题日益凸显。许多企业和个人都面临着这样的困境:拥有大量有价值的资料想要进行大模型训练,但这些资料涉及商业机密或个人隐私,绝对不能公开。传统的解决方案要么是使用公开的云服务(存在数据泄露风险),要么是部署本地设备(算力有限且只能在局域网使用)。我手上恰好有一台 AI 设备——懒猫 AI 算力舱。这是一个专为私有大模型设计的硬件设备,它不仅解决了数据隐私问题,还提供了强大的算力支持。通过与懒猫微服绑定,你可以随时随地使用自己的私有大模型,真正实现 "数据不出门,算力无上限"。什么是懒猫AI算力舱?懒猫 AI 算力舱是懒猫微服一款全新的独立硬件产品,专门为懒猫微服提供 AI 算力增强。这款产品采用了家族化 ID 设计,拥有跑车般的外形和科幻风格,在保证强大性能的同时,运行极其静音。设计理念● 静音设计:相比传统独立显卡,运行更加安静● 节能环保:功耗更低,更加省电● 大显存配置:提供更大的显存容量● 高性价比:在性能和价格之间找到最佳平衡点开箱小巧玲珑,还没有懒猫微服的一半大小,重量却比懒猫微服重,沉甸甸的,摸起来非常有质感。硬件配置详解🚀 核心性能参数● 超大显存:64GB 显存容量,可以轻松运行 70B 参数的大模型● 强劲算力:275T 算力,支持 CUDA 加速,兼容市面上绝大多数 AI 模型● 持续运行:支持7x24小时无间断运行,满足企业级应用需求💾 存储与扩展● 存储接口:2个M.2 NVMe接口,支持高速SSD扩展● 默认存储:标配 1TB SSD存储空间● 自由扩容:可根据需求自由升级存储容量🌐 网络连接● 双网口设计:支持 10G/2.5G 网络连接● AI路由器功能:可作为独立的 AI 路由器使用● 无线模块:内置Wi-Fi 6E无线模块,支持Wi-Fi、热点和蓝牙连接🖥️ 接口配置● 视频输出:1个HDMI 2.1接口,可作为独立AI电脑使用● USB接口:2个USB-A接口 + 1个USB-C接口● 外设支持:可外接鼠标、键盘、U盘等设备🔧 散热与电源● 散热设计:内置超大双向散热器,散热效率极高● 静音运行:优化的散热方案确保设备运行静音● 电源模块:配备 96W 氮化镓高端电源,高效节能使用方式🖥️ 方式一:独立使用懒猫AI算力舱可以作为独立的 AI 电脑使用,具备以下特点:● 即插即用:连接显示器、鼠标键盘即可使用● 内置系统:预装 Ubuntu 桌面系统,开箱即用● 独立运行:可以独立运行各种 AI 应用和模型● 算力提供:通过网络为懒猫微服提供额外的 AI 算力增强🌐 方式二:分布式算力通过网络连接方式,实现算力的无限扩展:● 无限扩展:理论上可以无限增强懒猫微服的 AI 能力● 集群部署:一个懒猫微服可同时连接多个算力舱● 智能调度:可以将特定 AI 大模型运行在指定的算力舱上● 零门槛部署:轻松在家中组建 AI 超算中心💡 应用场景● 个人用户:独立使用,享受私有大模型的便利● 企业用户:分布式部署,构建企业级 AI 算力中心● 开发者:灵活配置,满足不同开发需求● 研究人员:高性能计算,支持复杂 AI 模型训练大模型生态📚 模型来源懒猫 AI 算力舱的模型均来源于社区离线大模型,具备以下特点:● 开源社区:基于开源社区的高质量模型● 自由下载:支持下载各种 AI 模型和 AI 应用● 离线运行:所有模型均可离线运行,保护数据隐私● 持续更新:跟随社区发展,持续更新最新模型从这 可以搜索相关的大模型,70B 大模型轻松下载使用。🌐 AI 浏览器支持● 无缝集成:完美支持懒猫微服的 AI 浏览器● 统一体验:提供一致的 AI 服务体验● 跨平台:支持多种设备和平台访问● 自动登录:通过插件实现懒猫微服自动登录,无需人工进行登录认证从这下载 下载 AI 浏览器使用,结合懒猫微服和算力舱使用最佳,如果有懒猫微服和算力舱则在 AI 应用中有安装使用教程。官方软件功能懒猫 AI 算力舱提供了丰富的官方软件功能,涵盖以下领域:🔤 语言处理● 网页沉浸式翻译● 网页总结和改写● 输入框快速翻译和改写● 个人知识库搜索● Ollama问答● 联网搜索🎨 内容生成● 文生图● 文生视频📊 信息提取● 百度首页总结● Bing 首页总结● Youtube/B站视频总结● 网页截图和文字提取● 播客文字提取和总结● 网页朗读核心功能详解🌐 网页沉浸式翻译功能特点:点击网页边缘的翻译按钮或使用快捷键,实现沉浸式翻译网页内容应用价值:快速学习外文资料,无需额外付费会员,提升学习效率📝 网页总结和改写功能特点:针对选中的网页内容进行智能总结、改写和翻译应用价值:快速从网页中提取关键信息,改写复制有用的文字素材⌨️ 输入框快速翻译和改写功能特点:在任何网页输入框内,快速按三个空格即可翻译或改写应用价值:● 编写中文自动翻译成英文,方便跨国交流● 输入内容快速改写风格,增加沟通效率📚 个人知识库搜索功能特点:百万文档一秒内语义搜索,支持文档AI问答应用价值:● 模糊搜索全盘文档,所有数据本地存储,隐私保密● 针对文档进行二次问答,快速学习文档中关键知识🎬 视频语义搜索功能特点:语义搜索全盘视频内容应用价值:● 通过AI搜索找视频● 找到特定画面的视频🖼️ 图片文档识别功能特点:语义搜索图片中的文档,支持手写体识别应用价值:快速找到图片中的关键信息,一键提取图片中的文字并总结复制,提升学习效率🤖 Ollama问答功能特点:内置 Ollama AI问答框架应用价值:超大显存支持70B大模型,可自定义下载AI大模型🔍 联网搜索功能特点:AI 联网搜索功能应用价值:AI 搜索互联网资料并总结,减少人工分析90%的时间🎨 文生图功能特点:根据提示词生成精美图片应用价值:3秒生成一张产品或商品封面图,速度快📊 百度 / Bing 等首页总结功能特点:快速对搜索第一项搜索结果进行总结应用价值:不用查看网页即可知道搜索概要,节省人工分析90%的时间📺 Youtube/B站视频总结功能特点:快速对视频内容进行分析总结应用价值:不用看完整个视频即可知道视频概要,节省人工分析90%的时间📸 网页截图和文字提取功能特点:截取网页并提取文字应用价值:不用手动框选复制,即可AI一键提取网页内容,减轻学习负担🎙️ 播客文字提取和总结功能特点:AI分析播客的内容应用价值:AI自动分析播客语音内容,并自动提取文本内容,还可以对文本内容进一步总结,节省听播客的时间🎬 文生视频功能特点:根据文本描述生成视频内容应用价值:快速创建视频内容,提升内容创作效率🔊 网页朗读功能特点:将网页内容转换为语音播放应用价值:解放双眼,通过听觉获取信息使用方式💻 本地使用● 客户端调用:只要登录了懒猫微服客户端都可以调用算力舱的服务● Chery Studio:支持专业的AI开发环境● 应用商店:懒猫微服应用只要支持 Ollama 的应用也可以调用算力舱的服务🔧 开发支持● 开发使用:支持各种 AI 开发框架和工具● 部署应用:可以部署自定义的 AI 应用● 研究开发:支持 AI 研究和开发工作懒猫 AI 算力舱核心优势🚀 无限制使用● 无限Token:都是自己的设备,想怎么使用就怎么使用● 无流量限制:本地部署,不受网络流量限制● 无时间限制:7x24小时不间断服务📱 多平台支持● 跨设备访问:电脑、手机等各种能安装懒猫客户端的都可以使用大模型● 统一体验:懒猫微服应用也可以使用● 云端同步:多设备间数据同步(结合懒猫微服可以实现多设备间的数据同步,无需为数据在不同的地方困扰)🛠️ 开发友好● 开发使用:支持各种开发场景● 部署应用:可以部署自定义应用● 研究开发:支持AI研究和开发工作🔒 隐私安全● 数据本地化:所有数据都在本地,不会上传到云端● 完全私有:完全掌控自己的数据和模型● 安全可靠:企业级安全标准总结懒猫 AI 算力舱代表了私有大模型的发展方向,它不仅解决了数据隐私问题,还提供了强大的算力支持。通过64GB显存、275T算力、丰富的接口配置和完整的软件生态,它为用户提供了一个完整的私有大模型解决方案。无论是个人用户、企业用户还是开发者,都可以通过懒猫AI算力舱享受到无限制、无隐私担忧的AI服务。这不仅仅是一个硬件设备,更是一个完整的AI生态系统,让每个人都能拥有自己的私有大模型。并且懒猫微服有应用商店,未来将会有各种类型的 AI 应用上架,满足大家的需求,如果你会开发,那么你可以开发或者移植相关的 AI 应用到应用商店,其他也能享受便捷的服务。AI 算力舱解决了懒猫微服不能提供超大算力的问题,懒猫微服解决了私有大模型随时访问随处使用的问题。这是一个值得购买的产品,非常棒。如果你有使用私有大模型的需求,AI 算力舱值得你考虑。




创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
上一篇:首先,上一次的提示词是这样的:长得像日本明星的年轻女孩,活力偶像,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材,表情温柔生动,微笑地看着观众,眼中透出一抹淡淡的忧伤。背景是虚化的现代都市,阳光洒在她的脸上。专业杂志封面人像摄影师的杰作,高清照片。其实我觉得已经很美了,基本上能切中我的审美,但是总觉得还有点“不食人间烟火”?换句话说就是“AI味”还是存在。我们能不能再优化或修改一下以便生成更自然的图像呢?首先让我们分解一下提示词的结构:提示词的基本结构上次说到这个基本结构是【人物特征+场景+色彩光线+风格】,分解开就是:-【人物特征】长得像日本明星的年轻女孩,活力偶像,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材,表情温柔生动,微笑地看着观众,眼中透出一抹淡淡的忧伤。-【场景】背景是虚化的现代都市-【色彩光线】阳光洒在她的脸上-【风格】专业杂志封面人像摄影师的杰作,高清照片我们会发现人物特征说得特别多,其他部分就比较粗略,那么就让我们先在公式中增加更多的“参数”。丰富场景场景要有真实感,就要加上互动的内容,比如都市就要有行人和车。另外为了突出主体,我们要在开始就保持背景的模糊。背景是焦外虚化的现代都市,行人快乐而轻松,公交车和汽车来来往往留下慢速曝光的动感模糊丰富光线阳光是很好的光线描述词,但只有阳光就会比较“干巴”,正常来说皮肤这么白嫩的小姐姐不会站在直射的阳光下吧?或许这就是我们觉得不够自然的地方。阳光洒在她的脸上,投射出淡淡的树影。定义服装只说裙子,AI就会搞得很简单,多少要加一点式样。这里只露肩就好了,你可以学习一下服装设计的词汇找到更多款式描述。她穿着时尚的露肩白色裙子定义动作手是人类很重要的“表情”部分,手不动的话,人物就比较死板。虽然现在的AI可以把体态姿势做得比较自然,但是还是要有手的动作描述会更好。双手交握在胸前。露齿微笑,微微侧身,双臂交叉在胸前。更多的细节上次有说到“美”和“美感”,以及画面与观众间的“共鸣”,记得吗?没有什么比一些巧妙的小细节更容易打动观众以生成这种共鸣了。细节就是你看到/或想象到某个具体元素后,继续探索视觉/思维后的新发现。比如发型、配饰、首饰……让我们随意增加一点细节:黑色长直发,发梢有深紫色渐变,背着单肩银色漆皮小挎包,耳朵上有精致的银色耳环,戴着细细的银色项链这样,整个画面的内容够丰富了,经过适当的修饰,现在完整的提示差不多是这样的:长得像日本明星的年轻女孩,活力偶像,皮肤白晳红润,黑色长直发,发梢有深紫色渐变,有一双会说话的明亮大眼睛,穿着时尚的白色露肩裙子,裙边有银色装饰花边。性感的身材,表情温柔生动,微笑地看着观众。露齿微笑,微微侧身,双臂交叉在胸前。眼中透出一抹淡淡的忧伤。背景是焦外虚化的现代都市,行人快乐而轻松,公交车和汽车来来往往留下慢速曝光的动感模糊。阳光洒在她的脸上,投射出淡淡的树影。专业杂志封面人像摄影师的杰作,高清照片。很像写小说是不是?毕竟写小说时的人物/景物描写其目的也是在读者脑中显示一幅画面。可是……是不是还有什么不对劲?缺陷美所谓“AI味”,不光是指手指数量不对、四肢扭区、细节错误这些老问题。有时候过于完美才是硬伤。正所谓“有缺陷才是完美的”,连缺陷都没有怎么能称得上完美呢?所以有时候为了追求我们习惯的“凡间的美”,即真实感、接地气,我们需要人为给描述加一点不完美。因为之前说过了,“你不说AI怎么会知道呢?”,你不提AI还以为你就是要无缺陷的画面,就像前面提到的阳光和手,不太合常理或不自然就会美得不真实。你可以在任何地方试着增加“必要的缺陷”,但在这里让我们只是去掉原先提示中的“专业杂志封面人像摄影师的杰作,高清照片。”,改为:不完美的手机拍摄照片,轻微抖动的模糊边缘, 漏光,过曝。小技巧:必要时可以在参数中试着降低一点cfg值,让AI“较少遵守提示要求”,以便"更有缺陷"。但这个数值如果过小会降低生成质量,比如结构出错。另外对于Flux系模型官方不建议改cfg(默认1),只有SD和Qwen效果好些。最终提示现在结果是这样的:长得像日本明星的年轻女孩,活力偶像,皮肤白晳红润,黑色长直发,发梢有深紫色渐变,有一双会说话的明亮大眼睛,穿着时尚的白色露肩裙子,裙边有银色装饰花边,戴着银色珍珠耳环。性感的身材,表情温柔生动,微笑地看着观众。露齿微笑,微微侧身,双臂交叉在胸前。眼中透出一抹淡淡的忧伤。背景是焦外虚化的现代都市,行人快乐而轻松,公交车和汽车来来往往留下慢速曝光的动感模糊。阳光洒在她的脸上,投射出淡淡的树影。不完美的手机拍摄照片,轻微抖动的模糊边缘, 漏光,过曝。英文版:A young girl who resembles a Japanese celebrity, a vibrant idol, has fair, rosy skin, long straight black hair with a dark purple tint at the ends, and bright, expressive eyes. She wears a stylish white off-the-shoulder dress with silver trim. She wears small silver pearl earrings and a small silver patent leather shoulder bag. With a voluptuous figure and a gentle, lively expression, she gazes at the viewer with a smile. She grins, leans slightly to the side, and crosses her arms. A hint of melancholy lingers in her eyes. The background is a modern city with a blurred, out-of-focus image. Pedestrians are happy and relaxed, while buses and cars pass by, leaving a slow-motion blur. Sunlight falls on her face, casting a faint shadow of the trees. The imperfect photo, taken with a mobile phone, shows slightly shaky, blurred edges, light leaks, and overexposure.Flux1 Krea dev生成的结果可能更加自然:到目前为止,虽然提示词我们还可以继续优化下去,但感觉继续美化的意义不大了。现在我们知道了只要遵循固定的架构和足够详细的内容,就可以生成美感度足够高的图片。你可以任意修改其中的关键词来生成更多不同的美图。下一篇我们讲一下如何更好地修改内容风格并尽可能发挥你的想象力。




创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
由于总是用算力舱不务正业生成图片,所以我打算做一系列针对各主流模型绘制不同风格的性能和质量评测。由于懒猫算力舱内置支持ComfyUI,所以可以自由下载各种常用的绘画大模型,加上可以独立运行,所以就成了一个很好的图片生成工厂。本次将主要针对插画风格的图片进行测试,选用了两个提示词,用同样的参数对Flux1 Krea dev / Stable Diffustion 3.5 / Qwen-image / SDXL / Flux Dev 全量这五个(我常用的)模型进行对比。参数提示词1提示词:a girl holding flowers in her hands, the bouquet is made of various colorful and beautiful plants, dark purple background, white shirt, digital illustration style, bright light on face, half body portrait, glowing highlights, glow effect, high contrast, surrealism, fantasy, art by ryo takemasa, tatsuya tanaka, makoto shinkai, studio ghibli style翻译过来是:一个女孩手里拿着鲜花,花束由各种五颜六色美丽的植物制成,深紫色背景,白色衬衫,数字插图风格,脸上明亮的光线,半身像,发光的亮点,发光效果,高对比度,超现实主义,幻想,艺术,来自武政谅,田中达也,新海诚,吉卜力工作室风格这个提示词的意图是营造一种清新梦幻的风格,其中:武政谅是风格很清新明快的插画师;田中达也是微摄摄影师,风格细腻安静;新海诚和吉卜力就不用多说了,都是以风格清新闻名。提示词2a full-body character concept art of a demon geisha wearing black and red with devil horns, holding a small kitten in her hand, in the style of minjae lee. the background is simple, and the artwork is a digital illustration in a vector style painting with a detailed design and full color.翻译一个全身的角色设定,恶魔艺妓穿着黑色和红色的衣服与魔鬼的角,手里拿着一只小猫,Minjae Lee的风格。背景很简单,艺术品是数字插图,矢量风格绘画,有详细设计和全色。这里的Minjae Lee并不是明星李敏宰,而是一个韩国艺术家,插画风格比较繁杂细致(这里也可以看看AI认不认识此人)测试时使用的通用参数:尺寸:928x1232步数:20步测试结果对比Flux1 Krea Dev生成时间:图一120秒 图二125秒优点:画面很细腻,Krea特训过的模型人物本来就有一种特有的白净感,加上提示词中艺术家的描述后更加增强了这种风格,所以画面显得很干净,同时有很均匀的朦胧光晕。缺点:并不是数字插画而是动漫风格,不过因为引用了新海诚和吉卜力,所以也不能说偏离太过,但这个风格更像是动画片里的场景。优点:果然是Krea的白净感,各方面表达都不错,艺伎的表现很好缺点:不是矢量感,猫不够生动。SD 3.5生成时间:图一100秒 图二99秒优点:画面细致感足够高,因为要求的是数字插画,所以风格在动漫和写实之间,略带一点3D的感觉。光线从顶部洒下对花的渲染很好。缺点:有点矢量或3D感,而且把这两种风格混合了,虽然都不偏离数字插画的风格,但这种风格其实较少见。花的顶部有些过于散乱,整体美感还差点意思。优点:出乎意料的细致,有日本风,或许理解了李敏宰画家的风格。缺点:不是矢量风,猫动作很怪。Qwen-Image生成时间:图一212秒 图二209秒优点:虽然我总觉得Qwen有Flux血统,和Krea风格有时很近,但由于它的架构其实比Flux1要新,至少在语义理解的方面更好一些。这一幅的人物是风格上最接近吉卜力风的(没错,其实吉卜力风并不是你常见到的GPT画的那种),画面美感是这些测试中最好的。缺点:人物和花的渲染有些过于“平面了”,虽然在提示中并没有要求而且平面也是一种不错的风格,但平面感和光晕背景多少有些不搭。优点:有日本风,完美理解了矢量感。缺点:细致并不够,但由于提示是矢量感所以可以理解。SDXL生成时间:图一59秒 图二23秒SDXL虽然算是应该淘汰掉的模型了,但做为二次元风格尤其是某些内容的图片主力,其实是我很常用的。但因为传统的XDSL是双模型且效果一般,所以我这里用了一个checkpoint而非原生模型。优点:风格有强烈的动漫感,色彩明快,突出主要人物,焦点明确。更重要的优点是生成速度超级快,大约是其他家的1/2-1/4时间。缺点:要求是插画而不是漫画,风格较为单一,虽然精度够了,但细节相对较少。优点:速度极快,只有23秒,用时为Qwen的1/10。缺点:完全没有理解风格和内容要求,风格单一,甚至理解为整个人坐在手上,手的结构还出错了。(虽然产生了意外的趣味)Flux Dev 全量生成时间:图一130秒 图二145秒优点:作为原生的FLux,其实它本身定位和主打是绘制写实照片,所以画倒这个水平其实是超出预期的,细致感很高,表达也很好。缺点:光影有点怪,较强的线条感导致更加“动漫”,立体感和质感不强。优点:中规中矩理解了要求,风格虽然不是矢量感但也比较平面。缺点:尾巴结构有误,神态和整体美感比较一般。总结模型Flux1 Krea DevStable Diffusion 3.5Qwen-imageSDXLFlux dev速度约120秒约100秒约210秒小于50秒约130秒质量+++++++++++++++理解力++++++++++++++美感+++++++++++++++特点美感相对高,质量优秀比较通用,时有惊喜符合需求,复杂理解较好求快,二次元在插画方面无明显优势总之:Krea相对来说各方面比较平衡,美感有保证,速度也可以接受。SD3.5相对来说也能符合一般的要求。Qwen除了速度较慢,理解能力很好,美感也能兜底。SDXL超快,如果喜欢二次元可以尝试。原生FLux感觉存在感不强,同样要求不如试试Krea版。




创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
这是一篇理论攻略,出发点来自老王问我怎样优化绘画提示词。所以这里的内容将不仅适用于算力舱的ComfyUI之类,也适应于SD webUI,以及外部的ChatGPT、Nano Banana、豆包等其他AI绘画应用。我将主要使用AI算力舱内置的ComfyUI,主力模型是Qwen-image和Flux1 Krea dev。至于ComfyUI及相关模型的基本应用,在之前的攻略里已经说过了,不放在这个系列里,需要的话请移步:提示词架构总的来说就是怎样描述出你想要的画面。但是首先,让我们提一个问题:什么是“美”和“美感”?根据柏拉图的说法,在类似天国一样不可触及的“完美国度”中,每样事物(包括你我)都有一个完美的范本。(反过来说,现实世界中不可能存在“完美”。)你我所认为的凡间“美”的事物,只不过是在忽略了我们注意不到(或下意识忽视)的瑕疵之后,其绝大部分刚好符合我们心中对那个完美范本记忆的映象,会引起我们对那个完美国度的怀念,仅此而已。这样说有点玄,但可以有更现实的解释:当你看到一个画面,它能勾起你曾经的某个美好回忆或者符合你的某个美好幻想,让你感觉似曾相识,甚至可能勾起你五感的刺激,甚至心理上的共鸣,我们就称其为“美”。“美”和“美感”并不是一回事。大家公认的“美”,可能更多包含了人类生理上或共识上的认同,比如协调感、变化感、匀衡感、统一感、矛盾感……色调搭配是不是舒适、人物五官是否协调、穿戴搭配是否有创意、表情是否生动……这些造就了我们公认的对“美”的定义。但每个人的“美感”又可能不同,同一样东西可能不同人的感受不同。生命和大自然有其美感,死亡和灾难也可能有其美感(要么你为啥爱看暴力或灾难片?),当然还有颓废美感(摇滚)、变态美感(你懂的)或其他。我的一个美术老师对我说过:美就是统一与变化。我觉得可以扩充一下:美就是统一与矛盾的协调旋律。为什么说这么多?我们要优化提示词,本质目的就是要指导AI既要符合大众共识的“美”、又要符合你或观众的“美感”。AI“眼"中的世界AI是没有物理眼睛的,它对世界外观的理解来自于海量的图片训练数据,并且只能用算法去理解这些数据。所以AI的理解与人脑的理解区别,有点像早先的模拟图像到数码图像的转换,甚至跨度要更大、区别要更细密。在AI对绘画的理解里,有个潜空间(latent)的概念,这个潜空间是一个多维空间,里面有几十几百甚至可能成千上万个矢量维度。这些维度是什么呢?很难用人类能理解的语言去描述,但是用简化的类比大致可以这样说:比如颜色的色相可以矢量化成一个色轴,类似于我们常见的彩虹色。比如光线的明暗可以矢量化成0-255(或者更细密)的亮度轴。比如角色的年龄从幼到老、从高到矮、从胖到瘦都可以是不同的维度。比如风格从抽象到卡通到写实照片,也能理解成风格维度。甚至可以加入一个稳定/扰乱维度,用其随机位置控制输出内容的不同(种子)当AI输出一张图片,我们可以理解中它在这个超空间中通过参数坐标及算法找到了一个各维度的交点,这个交点就是这张图片本身,它表现了上述N个参数的集合。如果这个交点刚好与你的“美感”相切合,你就会认为这张图是“美”的,反之就会觉得有哪里不对劲。人脑的潜空间人脑的想象和审美也可以理解成同样的潜空间,或者说AI的潜空间是人脑潜空间(可意识到部分的)的超集。但由于我们无法像AI一样精确控制自己的具象思维(除非终身训练的天才画家才能接近),所以可以说人脑的潜空间里面只是一些混沌离散且模糊的坐标点。那么当优化提示词时,你需要做的就是把你人脑潜空间里那个混沌坐标提取出来,用文字描述成AI潜空间里,用矢量维度和算法能聚焦和表达的交点。长远来讲,你可能甚至要反向揣测和估摸AI可能会怎样理解和表达某些概念,但这就需要长期摸索和训练了。你可能会觉得,文字会有信息损失和表达局限。这是自然的,但不要紧,AI的强大能力之一就是预测和完善,你没表达全的部分参数,AI会用预测值和随机值给你补全。同时,因为观众脑内坐标也是模糊的,所以这个坐标只要在大致上能和观众脑内潜空间的混沌坐标能产生共鸣就行了。如何把握这个模糊的“度”并尽可能多产生“共鸣”,就是绘画提示词工程里最重要的部分。完整表达你的意图AI不是你肚子里的蛔虫,所以你想要的一定要说出来,你不想要的也要避免或否定。否则其他的部分只能靠AI揣测和随机补全,其结果可能不符合你的要求也是理所当然的事情,怪不得AI。想象有一个公式,或者有一个程序,它有一百个参数,而你只填写了其中一个,其他的使用随机值,那么出来的结果能达到你的预期吗?我们固然不可能描述所有细节,填完所有的矢量参数,但把脏活累活交给AI去做之前,至少要把你想要的(或不想要的)明确地传达给AI才行。要做好这一点,可能需要长期的摸索、参考别人的作品、与AI磨合、学习更多美学、观察更多的细节、幻想更多场景等。但要做到生成的图片基本“可看”并不难,其实就像写小说差不多,你要描绘一个人物角色,或者铺设一个场景,就必须专注描写你能想到的所有细节,用足够的篇幅去完善文字,尽可能让读者理解你脑中的那个幻想。所以提示词架构的第一步,你只要能够完整表达意图就可以了。提示词架构实例下面让我们画个美女(以下主要使用Qwen-image)。首先,你不能只说“画一个女人”,AI会画成这样:你要“美女”自然至少要说上“美”。当然你可以只说“画一个美女”,然而虽然能保证基本漂亮,但AI画出来是这样:还不错不是么?至少比上面的好些,但不太能满足我们的要求,她可能并不是我们在提出需求前设想的那个样子,至少远远不能满足我的“美感”。让我们来正式搭建这个提示词:长得像日本明星的女孩,年轻活力,皮肤白晳红润,黑色长直发如果没有特殊要求,你并不需要特别说明“双眼皮”、“卧蚕”、“皓齿红唇”、“年龄20岁上下”。这些属于传统的“美”,现代的绘画模型都可以默认地从“像日本明星的女孩”中预测到了你喜欢“东方式美感”和特征及年龄等需求,从而理解并为你填充参数。那么什么是你为了更多“美感”而需要去完善的呢?让我们接着扩展:长得像日本明星的女孩,年轻活力,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材现在的结果,严格来说不能说比上一张“更美”,但可以说“更符合我的美感”。符不符合你的美感我不知道,毕竟美感每个人是不同的,我们只能适应一部分人的美感。那么再进一步:长得像日本明星的女孩,年轻活力,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材,表情温柔生动,微笑地看着观众,眼中透出一抹淡淡的忧伤。【小技巧】我在这个“统一”的美中增加了一点“矛盾”,让它多了一点忧伤感。当然不一定非得忧伤,可以是爱意、倔强、憎恨等任何你想要的词。总之在统一中增加矛盾,就会产生更多的情感变量,更容易让人产生“心理共鸣”,让画面更“生动”(虽然这张图中AI处理得有点过)。接下来,由于我不太喜欢这个阴郁的调调、俯视的视角和半截马路牙子的背景:长得像日本明星的女孩,年轻活力,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材,表情温柔生动,微笑地看着观众,眼中透出一抹淡淡的忧伤。背景是虚化的现代都市,阳光洒在她的脸上。AI自动调整了视角以符合都市背景,阳光也冲淡了忧郁的调调,但是你可以注意到眼中“淡淡的忧伤”仍然存在,而且不像之前那么矫情了。最后,我们增加照片风格的描述,以保证在其他模型上也能稳定输出,同时给画面再增加一点氛围:长得像日本明星的年轻女孩,活力偶像,皮肤白晳红润,黑色长直发,有一双会说话的大眼睛,穿着时尚的白色裙子,曼妙的身材,表情温柔生动,微笑地看着观众,眼中透出一抹淡淡的忧伤。背景是虚化的现代都市,阳光洒在她的脸上。专业杂志封面人像摄影师的杰作,高清照片。提示词工程里还有很多“小技巧”但这里先不提,由于AI模型本身就默认理解为照片,而我只加了一句简单的照片风格说明,我们可以看到画面的主体没怎么变,但是人物的动作更加自然了。这样,【人物特征+场景+色彩光线+风格】,一个最基本的提示词架构就搭好了。现在让我们把这段提示翻译成英语(大部分非国产模型还是更认英文),喂给其他模型:A young girl who resembles a Japanese celebrity, a vibrant and charming idol, with fair and rosy skin, long, straight black hair, expressive large eyes, wearing a stylish white dress, a graceful figure, a gentle and lively expression, smiling at the audience with a hint of melancholy in her eyes. The background is a blurred cityscape, with sunlight softly illuminating her face. A masterpiece by a professional magazine cover portrait photographer; high-resolution photo.Flux1 Krea devFlux dev 全量Stable Diffustion 3.5不同模型的风格略有不同,有些模型表达还是不够自然,但我们已经基本上保证了画面丰富度和美感。下一篇中让我们试着再进一步优化提示。




创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
本文为“懒猫AI算力舱”这个产品的个人应用体验与对产品的思考,非AI撰写,阅读大约需要……我也不知道多久,反正用不了多久( ̄︶ ̄)↗ 颜值关于颜值 ,啥也不说,先上图:这是什么?是黑暗勋爵的太空船?是星际殖民者的神秘基地?是赛伯反叛军的黑客装置?没错,我也是颜值派,而且是黯黑系颜值派。可其实我并不是因为颜值才想要懒猫AI算力舱这个东西的。远在知道它长什么样子之间,我就想让它加入我的装备库了。当然,对于外观我也是有一种信任感在的,毕竟它的兄长——懒猫微服长得就很俊。兄弟俩配在一起更帅。小巧而强大,是我之前对懒猫微服入手时的第一印象;而懒猫算力舱给我的印象是,更小巧而更强大。仅从照片上看,你会觉得它很酷,然而这种感觉可能是不完全的,因为它并不能代表你把它拿在手里时的那种紧密的重量感和金属触感。所以如果你已经被它的外观吸引了,那么建议你再拿在手里掂一掂感受它的坚实,用手摸一摸感受它一体化的造型和细致的倒角,用心感受一下它体内传递出来的黯黑能量……(啊,白色版另论)我曾经开玩笑地跟老王说,他这是冲着星战风格卯上了。因为这个科幻造型和合金材质,完全不是传统迷你主机那种廉价工业化设计加塑胶外壳能比的,分明就是一架未来太空船的设计。套用我在评价微服时说过的类似的话:对于为老派星战系列和变形金刚而着迷的一代老少年,没能拥有乐高死星,没有拥有顶配金属擎天柱,但能在桌子上摆这样一个计算设备,也未尝不算顺便圆了一点科幻梦(又多圆了一点)。定位与动机至于颜值以外,从我个人的角度来讲背景是这样的:在用了十多年的苹果之后,由于对AI的需求(而且穷),我决定抛弃果子阵营。并在之前配了一台显卡是4070TiS的PC,4070这个显卡跑小参数的AI足够快,但因为显存只有12G,基本上运行不了14B以上的模型,所以就有点鸡肋。加上我不玩游戏,入5090之类的在短期内实在没有必要。还有一个重点是,我不是很想在主力机上不间断跑AI,那会导致其他的事情做不了或很缓慢。我更习惯在主机上只“开发”新提示词,继而同时在云端服务器或其他电脑上批量抽卡。在这种情况下我就会感觉很需要一台“僚机”,它可以其他啥都不干,只要闷头一个劲跑AI就可以了——而懒猫算力舱就是在恰好在我这个“感觉很需要”的时间口上出现的。我认为这个产品的定位差不多就是这样,机如其名,它是一台专门用来提供AI算力的设备。之所以叫“僚机”因为它并不是副飞行员(copolit)那样的纯软件角色,也不像显卡坞之类的外设扩展,而是一台独立的迷你计算机。同时,它也是对懒猫微服的功能扩展,结合微服的网络穿透能力,算力舱就可以为你所有的设备提供AI服务,真正的成为懒猫一直在打造的“私有云”的一部分。恰好我已经拥有了懒猫微服,习惯了它的网穿体验,基本上不需要任何学习成本就可以在所有设备上运行应用。而其简单的应用架构又使得连我一个不懂技术的人都可以在AI的协助下开发自己需要的应用。甚至微服内置的相册还有自动同步相册和AI查找去重等功能,对于平均每天会生成和抽卡上千张AI图的我来说,这个组合可以说再合适不过了。另外,由于我也算是懒猫微服的资深用户加“自甘吹”了,除了前面说过对外观的信任感,对于设备与技术,包括海底捞式的服务,在一年多的高频度使用中,我已经建立起了对懒猫团队的充分信任。我是相信这个极客基因满满的团队,至少目前很长一段还不会被资本污染的阶段里吧,是不会因为眼前的小小商业利益而以次充好的,因为对于技术的偏执追求和对产品的完美化理想主义会阻止他们这么干。所以以我的观点,基本上可以闭眼冲。连接设备由于算力舱本质上算是一台独立的电脑,你甚至不一定需要懒猫微服(当然二者相乘会得到彼此优势的更大发挥)。安装时基本上不需要看说明书。背面只有必要的接口,插上传说中的碳化镓电源适配器(感谢小笼包妹妹贴心地送了我欧标转换插),把HDMI接口接到显示器上,再在USB口插上键鼠接收器,直接开机就可以打开内置的Ubuntu界面了。由于我家里连接网线有些不方便,所以尽管套装里配备了高级的山泽网线,我仍然打算直接使用Wifi,只要在Ubuntu的GUI里设置无线网络就好了。而对于充满黑科技懒猫微服来说,只要算力舱在它能访问到IP的范围内,它就可以自己找到。要做的一切只需要从懒猫安装一个AI应用,剩下的跟随引导很容易就可以将算力舱和懒猫微服连接起来了,基本上属于即插即用。而相应的,拥有了微服穿透能力的算力舱,立刻就可以被你的所有设备访问到,只要安装了(作为主要服务入口的AI浏览器)的设备,无论是PC或平板还是手机,都可以随时随地享用到AI的服务。日常辅助这里的AI浏览器,是一个经过特别定制打造的Cromite,也就是功能和性能都基本上相当于Chrome,AI服务的入口是以流览器插件的形式置入,所以可以轻量到几乎无感。基本的官方应用包括AI自动翻译网页、AI总结、AI辅助文字撰写、微服全网盘搜索、文生图、文生视频等,当然还包括我最需要的ComfyUI与Ollama。而由于内置了Ollama,而且大部分LLM类功能的插件都是连接到Ollama的,所以相当于可以自由地拉取包括满血版Deepseek在内的所有Ollama支持的开源模型,并可以在设置中选择针对各项功能的或你所偏好的模型。没用多久,我就已经习惯了在搜索时随时看到AI的解释,在看视频时看到AI的总结,随手翻译网页中的内容,而且完全不需要在意什么Token……为了更有僚机感,我目前把算力舱放在机箱顶上。它看上去就像一个外置硬盘盒,美观却几乎没有存在感。风扇只在大量运算的时候才会响起来,并不比我的电脑声音大,看来散热设计也相当好。由于是GUI用户,不像极客们那么爱代码,所以虽然配置好了SSH,我还是配上一个小号的移动显示器,这样就可以随时监控状态并查看生成的图片和视频等。由于是独立系统,我打算为它配上自动脚本定期工作,但是目前还没有开始折腾。或许等自动脚本配置好之后,我会把它移到和微服同一个房间,让它们兄弟相逢。但至少目前,让我再多养养眼也好。图片生成其实对我来说,日常的AI辅助还只是捎带的益处,我真正需要AI的地方还是绘图创作。懒猫的算力舱内置了文生图和文生视频两个官方应用,但是由于系统是新推出的,还需要一定的完善,所以这两个应用相对还是比较简单,显然不能满足我这个深度AI艺术爱好者的需求。但幸运的是,算力舱同时也内置了一套ComfyUI,于是这就好玩了。虽然要使用ComfyUI还需要事先做一点技术准备,但这难不到有AI辅佐的本技术小白,基本的Linux命令还是知道几个的。于是在AI的指导下,我开通了算力舱的SSH登录,以便把我需要的模型下载到合适的位置;并把ComfyUI的output目录挂载到了懒猫网盘。于是随时随地,甚至出门时在手机上都可以打开ComfyUI指挥算力舱干活了。关于实测的性能,坦白来说算力舱的架构是更适合LLM推理的,绘图上并不比我的4070快;但算力舱的优点仍然远大于速度上缺点,主要是因为它——显存超大啊!前面也说了,由于我想要的是一台僚机,不是用来跑游戏,不需要即时的渲染,所以显存容量就成了我最需要的特点。拿视频来说,以前在4070上充其量能跑动的是7b的wan2文生视频,想运行14b的图生视频,简直就是痴人说梦屡开屡崩。而对算力舱的64G显存来说,wan2.2的图生视频跑起来完全没有问题,开起队列来一口气能跑几十条视频用来抽卡,简直是爽到飞。(悄悄说句题外话:我曾经也有远程借用过变总4块3090的传说级服务器用来绘图,速度上感觉没有太大差异,只不过……反正我是承受不起他那个超级巨大的机箱尺寸ƪ(˘⌣˘)ʃ)AI应用开发+孵化懒猫微服的应用核心都是基于Docker的,所以算力舱也是基于Docker提供AI算力的服务。而且于微服应用的机制本身就很开放很简单,所以即使对我这个已经在AI辅助下在应用商店上架了不少应用的Vibe半吊子开发者来说,上手也很容易。算力舱为了提供语音服务功能,内置了一个文字转语音的TTS引擎,于是我只需要编写我拿手的前端,一个自己开发的好用的TTS应用就有了。官方的文生图虽然简单,但内置的Flux引擎是开放的,于是我同样只需要编写一个前端,一个相对来说功能更多的文生图应用就诞生了。因为想试试内置的Ollama,又是编写了一个前端,一个AI撩妹情感聊天应用又出来了。熟悉了这种机制之后,在AI编写后端我手写前端的情况下,基本上快则两三天,慢则一周之内出一款应用,从真正意义上解放了我的创造力。更值得期待的是,有了这些自适应各终端的前端设计流程,等把它们的体验打磨得比较完善了,我只要修改一下后端引擎,应该就可以对接其他云端或本地的AI服务,针对更广泛应户群的公众应用应该就不远了。所以对于我来说,不担拥有了僚机,还有了一个AI应用孵化器!发展空间如果要用一个长句描述这个产品,我会说:懒猫AI算力舱是一个外观科幻炫酷、配置实在、做工精致、功能多样化的,能够与懒猫微服及各种终端完美配合、又能独立运行的强大的微型AI运算设备。自然,问题肯定是也有,比如我比较在意的用户体验还需要仔细打磨,比如目前还未完善的同步能力,但毕竟是全新且完全原创的系统;也肯定有人会像喷微服那样来喷算力舱配置不够顶级之类……但至少对我个人来说,它只要能够满足目前的需求,而且更重要的是只要架构和发展路线合理,加上追求完美的研发和客服素质,这个产品就会有无限的发展空间。按我的角度,从懒猫“私有云”的愿景角度来看,如果懒猫微服算是服务器与存储容器,算力舱就是AI工作站。它们的组合解决了针对日常设备(尤其是移动设备)商家超过实际需求的升级速度与用户日益增长的存储需求及运算压力之间的矛盾,让用户可以用平凡廉价的终端设备使用到更高级且更方便的服务,也降低了用户对商用云服务的需求及成本。其实,我在十多年前就预期过这样的家庭运算中心设备,幻想着每个家庭自己有一台中心电脑,然后桌面电脑、平板、手机都只是终端式的外设,成本可以很低。但当时是期望苹果或谷歌这样的商家总有一天会转向这样的开发,万万没想到是国内的一个原创小企业最先实现了它。这种对预期的符合,也是我愿意做懒猫自甘吹的主要原因。当然,现在回头想想,从大企业的角度,这样产品并不利于移动设备的升级和售卖,所以他们短期也不太可能这么做。毕竟如果大家都只升级家庭中心设备,对手机和电脑的需求,以及对商用云服务的需求就会降低。可是对于最终用户的我们来说,这不正是一件好事么?试想你把全家升级换代手机的成本改为投资一套家用私有云,除了装逼属性有所损失,换来的却是时时处处都能安全免费且自由访问的个人资源和AI能力,不再受商业化产品的订阅捆绑,其实是一桩非常合算的买卖。




创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
我老是把Kokoro记错成Kororo...懒猫AI算力舱内置了Kokoro TTS,Kokoro TTS 是一个轻量级、开源的文本转语音(Text-to-Speech)模型,2024 年由微软亚洲研究院(Microsoft Research Asia)提出。它的主要特点是:轻量高效,模型参数量大约 80M,比主流大模型 TTS 要小得多。推理速度快,适合在普通 GPU 或者 CPU 上实时运行。高音质,采用非自回归架构(non-autoregressive),减少了生成延迟。在 MOS(Mean Opinion Score,主观音质评分)测试中,表现接近甚至超过更大规模的 TTS 系统。多语言支持,尤其近来添加了大量中文语言包,懒猫算力舱内置的版本就有100多个中文音色可选。首先你需要算力舱,然后安装以下应用:基本使用界面分为左右布局,在移动版会改为上下式布局,便于滑动浏览。左栏是生成面板,右栏是转换记录和任务队列。应用启动后大约需要十几秒加载模型并读取音色列表,等系统提示且音色列表刷新后就可以使用了。你只要在文本框中输入内容(点击应用标题可以快速把标题输入进去便于尝试),然后选择一个音乐观,设置语速。再点击“开始转换”就可以了。Kokoro的转换速度非常快,几百字的文本也只需要几秒种,所以几乎没有什么等待时间,转换完成后会自动播放一遍语音。转换完的记录都会记录在右栏的“转换记录”列表中,你可以再次试听、下载或删除它们。记录区右上角有一个刷新按钮,用于同步在不同终端上生成的结果,还有一个全选/反选按钮,当选择多条时,就会出现批量删除按钮,用于批量删除转换记录。高级用法喵语1.1.0版本新加入了打开文本文件和任务队列功能。当你升级到1.1.0版本后,你就可以从懒猫网盘选择一个文本文件,从右键菜单中找到“在线应用打开”,并选择“喵语·TTS”,就可以直接唤起喵语并开始转换。应用将自动拆分较大的文本,分割为大约为500字左右基于自然段的N个片段,然后生成转换任务。转换任务是后台同步的,如果你在一个应用实例(比如手机)中创建了任务,在其他的实例(比如桌面或网页端)也可以看到任务,可以在任何一个实例中启动转换任务。转换任务执行的很快,我转换了一章我正在写的小说文本,几千字大约不到一分钟就转完了,所以理论上,你也可以试试转换长篇的文案。转换完成任务就会消失,相应的转换结果会出现在“转换记录”Tab中。小技巧由于每次任务都是从表单中读取一次设置,所以当你转换到某条记录时,你可以暂停或快速操作,在表单中切换音色,这样新的任务就会用新的音色来转换,便于切换对话角色等。在后续的版本中可能会加入单条设置音色和单独转换的功能,也会加入批量下载或拼接功能,这样转换有声书或剧本时就会更方便啦。




创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
ComfyUI不只是AI绘图,还能做视频,这你知道的吧?我在之前的攻略《》介绍了用Flex Dev绘图,下面介绍一下图生视频。你将需要AI算力舱,并安装ComfyUI。首先我会使用这张图样用懒猫AI文生图绘制的猫咪图片:打开ComfyUI之后,忽略默认打开的SD1.5工作流,直接从左上角菜单打开“浏览模板”从“视频生成”类选择Wan 2.2 14B Image to Video。当然,Wan 2.2也支持文生视频,但文生视频对于提示词的要求更高些,我会在以后再讲解。初次打开会要求下载两个超巨大的模型,因为我已经下载过了就不再截图了,我记得大约每个是14G左右,总共是28G,需要等待足够的时间。下载完之后工作流自动打开,这个模板是使用双模型渲染,所以相对比较复杂。如果你用过古老的SDXL可能会熟悉双模型,在这里我会详细解释一下。Wan2.2 t2v有两个模型文件,分别是:wan2.2_t2v_high_noise_14B_fp8_scaled.safetensorswan2.2_t2v_low_noise_14B_fp8_scaled.safetensors顾名思义,high-noise用来进行高噪声生成,会让画面有更多的创意和变化,low-noise用来降低噪声,让结果更符合初始画面和符合提示词。两个模型要分别处理生成过程的前半段和后半段,其中Step的分配比例可能会很大地影响到结果的动感和质量。首先让我们在图片输入节点上传之前那张小猫的图片。再在绿色的提示框输入提示词,红色的反向提示可以直接保留。初始提示词:生气的小猫咪,抬起爪子向镜头抓来,动感夸张的社交媒体GIF动画,低帧率快速动画,大幅度的动作,强烈的冲觉冲击感,有趣的运镜。然后要设置图片的大小,这张图我打算生成动画表情包,所以使用微信表情包的图片大小240x240,这样生成速度也比较快。帧数我想要36帧(会被自动校正为37)。如果你在意质量,可以保留模板中的现有步数设计(25步),但是我的要求不高,而且求快,所以我要将总步数设置为15步。这里你会看到两个K采样器,分别对应前面提到的high-noise和low-noise模型。第一个停在第5步,第二个从第5步开始走完剩下的10步。点击“运行”按钮,你会从顶部进度条看到AI开始工作了。你也可以点击右上角的图标查看动态日志。按上述的尺寸和步数设置,生成一段动画只需要两分钟。嗯,动起来了,运镜尚可,可是动画感不够强烈,可能是AI并不太理解猫需要什么动作。让我们优化一下提示词,给它一个明显的动作:生气的小猫咪,抬起爪子向镜头抓来,动感夸张的社交媒体GIF动画,低帧率快速动画,大幅度的动作,强烈的冲觉冲击感,有趣的运镜。小猫咪听话(并生气)地挥舞起了爪子:接下来我们进行传说中的抽卡,就是多生成几份挑选最好的,反正无限Token不是么?让我们把提示词再优化一点,加上镜头动作:生气的小猫咪,抬起爪子向镜头抓来,动感夸张的社交媒体GIF动画,低帧率快速动画,大幅度的动作,强烈的冲觉冲击感。有趣的运镜,镜头在爪子抓来时快速后退,仿佛在躲避爪子,镜头晃动但始终对准小猫,镜头晃动时有一点跑焦,但很快又恢复了自动对焦。从此表情包自由了。




创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
我已经多次介绍过Refly这个神奇的AI工具,现在将介绍它如何配合AI算力舱进行工作,使用Ollama中的AI模型提供智慧支持。首先你需要算力舱并安装上面两个应用。打开Refly并登录(如果你没有注册可以随便秒注册一个)选择语言,我是惯用中文,AI对话的语言也可以自动根据你的输入而检测。下面先打开左下角的设置,选择第一项“供应商”。设置供应商为“Ollama", APIKey留空,BaseURL如下填写:然后开始添加模型,在设置的第二项“模型配置”中选择“填加模型”,供应商选择前面填好的Ollama,模型ID会自动显示出当前Ollama中已经安装的所有模型。选择你喜欢的模型,比如参数小些的模型可以用做快速问答,大参数模型可以用做精细输出。新建一个画板,双击空白处从打开的菜单中选择“问问AI”,一个AI问答节点就生成了,在里面填写一个提示测试一下:Ollama会把模型思考的部分用包裹起来,可能与Refly的设置不太相同,我还没有找到在哪里可以修改相关设置,在这里我们忽略就可以了。点击节点在右栏会展示问答详情,在下方的文本框可以继续追问,追问会自动建立节点。在Refly的问答框可以设置预设提示词,但我更喜欢使用知识库功能,新建一个知识库,就可以设置一个本知识库通用的预设提示词。在这里我设置了一个用来帮我创作游戏或小说主题的提示词:你是熟悉经典日式RPG游戏的策划专家,熟悉各种幻想、复古、蒸汽朋克、赛博朋克、异世界等提材,接受并擅长适当擦边设定,对人设、对话、情节都能提出令人眼前一亮、感同深受或容易代入的策划。你将帮用户提供游戏情节、对话、文案以及架构的一系列设计。在知识库提问记得打开右下角或节点中的“知识库提问”开关,此时AI将会从整个知识库中查找资料并参考。我写了一个关于游戏设定的提示词:我需要设计一个异世界主题的RPG游戏,逻辑比较简单,比如主角来到异世界,他需要到各种商店购买装备,打怪物和魔兽获取资源,到公会接任务并出售物品赚钱,其中会遇到的全都是女性角色或同伴。请给我提供一个故事框架,包括人物设定、故事背景和开场等。从回答的结果来看(qwen3:14b)虽然不是很大,但回答得很不错。从此,就可以使用算力舱的无限Token任意打造需要的工作流了。




创意设计版霸·老掉牙的设计师·只能依仗AI的艺术家·落伍的伪全栈·除了舌毒嘴贱手残并没有什么别的优点
首先,在应用商店安装了ComfyUI应用之后,是需要在懒猫AI浏览器中使用的。安装完之后你可以在浏览器的初始页面看到这个ComfyUI的图标。打开之后的初始页面,有三个链接,开始创作就是打开ComfyUI本身,文件管理器可以在线打开Comfy的user目录,你可以在里面管理所有的模型和图片文件。第三项文档会链接到官方的教程和文档库。选择第一项“开始创作”就进入ComfyUI的画布界面了。如果你完全不了解ComfyUI的工作流方法,最简单的开箱即用方式,就是从官方内置的模板库开始了。打开模板这里不建议从第一个默认的文生图开始,因为那是基础的StableDiffusion 1.5模型,如果用基本的提示不用LoRA,结果不会太好看,而且也发挥不出懒猫设备的能力。如果你需要通用又保质量的图片,建议使用Qwen-Image、Flux 1 Krea Dev、或基本的Flux 1模型这三个模板。其中Qwen对于中文提示的支持很好,生成文字也很厉害,图片质量有基本保证。但缺点是人物基本上都长一个样。Krea版的Flux美感要高于Qwen和基本Flux。但缺点是风格上有一点单调,对于一些特别的提示表现也不是很好。基础Flux 1,尤其是Flex Dev全量,可以让成非常精细的图片质量,对照片风格的图片非常好,对提示的适应性也很好。缺点是审美比较依赖提示词,而且dev全量会比较慢。如果你偏爱二次元动漫风格,那么SDXL是非常好的选择,在civitai之类的网站上,兼容于SDXL的checkpoint和LoRA也很多,尤其是某特“特定”风格。下载模型当你打开一个工作流,如果你缺少相应的模型,应用会提醒你下载它。这时如何点击下载,是会下载到你本地电脑的,这会有点麻烦。建议是复制URL,然后用SSH登录设备用wget拷贝过去,放在ComfyUI的model文件夹里相应的位置就可以了。或者用另一个方式,记住你需要下的模型,关掉提示框,打开顶部的Maneger窗口,从窗口中间的Model Manager中下载。在这个界面中搜索相应的模型并选择Install,就可以在后台自动下载模型到相应的目录了。生成图片当模型下载完成,不要被复杂的工作流吓到,在这里你其实需要注意的只是两个主要部分,一个是提示词,一个是图片尺寸。我们以Flex 1 Krea dev为例,因为Flex系列是没有反向提示词的,所以只需要在正向提示词框中填入你想要的提示词,然后在尺寸节点输入图片尺寸(这里建议在1024x1024或相当像素数的分辨率)。如果你需要更精细的控制,比如一次生成多张图(同样的种子以便抽卡选图),可以调整“批量大小”,但生成的时间会相应的加倍。采样器中的“步数”是指降噪的步数,可以提高图片的精致度,但会花费更多的渲染时间,并不需要太高。CFG是“服从率”,这个值越高,AI生成的图片就会更加符合你的提示词,但是相应的会降底一些审美,太高的话甚至质量会很差或直接崩掉。最后,你只要点击右下角那个蓝色的“运行”按钮(旁边可以设置重复次数),就可以生成图片了!顺便推荐我的原创应用:它可以帮你更好地组织提示词,不妨试试😺


