本期推荐开源项目目录:
1. 一个好玩的图像生成项目
2. 虚拟服装试穿工具
3. 基于 AI 的文件类型检测工具
4. 谷歌开源的 Gemma
01
一个好玩的图像生成项目
这个开源项目叫做 GLIGEN GUI,是一个使用 ComfyUI 作为后端的直观图形用户界面。GLIGEN 是一种新颖的方式,你可以框出一个区域然后指定这个区域的内容,生成更符合自己意愿的图像。
比如你在一个白色的画布不同的位置框了7个框,并在不同的框设定了内容:窗户、玫瑰、青蛙、帽子等等,最终根据你标注的位置和提示,会生成如下的图片。
如果你想使用 LORAs,也支持选择 LORA 模型并调整其强度,你可以添加多个LORAs。最后,按Queue Prompt 将提示提交给ComfyUI,一旦图像生成,它将出现在画布上。
这个工具让用户可以控制生成图像的大小、位置和元素之间的空间关系,比如将一只穿着宇航服的猫放在画面中央,让它占据主要部分。
开源地址:https://github.com/mut-ex/gligen-gui
02
虚拟服装试穿工具
这个开源项目叫做 OOTDiffusion,是由 Yuhao Xu、Tao Gu、Weifeng Chen和 Chengcai Chen 共同开发的。
它是一种高度可控的虚拟服装试穿工具,可以根据不同性别和体型自动调整,和模特非常贴合。用户可以选择半身模型进行上半身服装试穿,适合T恤、衬衫等上身服装;也可以选择全身模型进行全身服装试穿,包括上身、下身和连衣裙等服装类型。
OOTDiffusion的核心功能是基于潜在扩散的装备融合,利用潜在扩散模型(latent diffusion models)的先进技术,OOTDiffusion实现了高质量的服装图像生成和融合,确保试穿效果自然且逼真。
开源地址:https://github.com/levihsu/OOTDiffusion
03
基于 AI 的文件类型检测工具
这个开源项目叫做 Magika,是由 Google 开发的。Magika 是一个基于深度学习的文件类型检测工具,它利用了深度学习的最新进展来提供准确的检测。
Magika 使用了一个定制的、高度优化的 Keras 模型,该模型只有大约 1MB 的大小,即使在单个 CPU 上运行,也能在毫秒级别内精确地识别文件类型。
在对超过 100 种内容类型(包括二进制和文本文件格式)的超过 100 万个文件进行评估后,Magika 达到了 99% 以上的精确度和召回率。
Magika 被大规模地用于提高 Google 用户的安全性,通过将 Gmail、Drive 和 Safe Browsing 的文件路由到适当的安全和内容策略扫描器。
Magika 是开源的,并且 Google 通过开源 Magika,旨在帮助其他软件提高他们的文件识别准确性,并为研究人员提供一种可靠的方法来大规模识别文件类型
开源地址:https://github.com/google/magika
04
谷歌开源的 Gemma
这个开源项目叫做 Gemma,是由 Google 创建,开源一周获得了 3.4K 的 Star。它是一个基于 PyTorch 的官方实现,具有以下特性:
Gemma 是一系列轻量级、最先进的开放模型,由用于创建 Google Gemini 模型的研究和技术构建。
它们是文本到文本、仅解码器的大型语言模型,提供英语版本,具有开放权重、预训练变体和指令调优变体。
提供了使用 PyTorch 和 PyTorch/XLA 的模型和推理实现,并支持在 CPU、GPU 和 TPU 上运行推理。
该开源项目提供了使用 Docker 在 CPU、GPU 上运行 Gemma 推理的方法
开源地址:https://github.com/google/gemma_pytorch
历史盘点
逛逛 GitHub 每天推荐一个好玩有趣的开源项目。历史推荐的开源项目已经收录到 GitHub 项目,欢迎 Star:
地址:https://github.com/Wechat-ggGitHub/Awesome-GitHub-Repo
推荐阅读
1. GitHub 上有什么好玩的项目?
2. 推荐 5 个本周很火的 GitHub 项目
3. 推荐 5 个近期火火火的 GitHub 项目
4. 推荐 5 个令人惊艳的 GitHub 项目