视觉模型

共 10 篇网址

基础模型办公工具编程工具写作工具视频工具设计工具音频工具开源精选模型精选

语言模型多态模型视觉模型

排序

发布更新浏览点赞

视觉模型最受欢迎的产品

查看完整榜单

OmniParser

YOLOv5

Backbone

SAM2

Kornia

PyTorch Vision

Backbone

该网站是华为诺亚方舟实验室在GitHub上开源的一个项目仓库，主要提供一系列高效、轻量化的深度学习模型（Backbone）。其核心目的是为计算机视觉任务（如图像分类、目标检测、语义分割等）提供高性能且计算资源消耗更少的神经网络基础架构，以解决在边缘设备、移动终端等资源受限环境下部署AI模型的挑战。

370

开源精选视觉模型

Qwen-VL

Qwen-VL是一个开源的大规模视觉语言模型，旨在理解和处理图像与文本相结合的复杂信息。它能够执行多模态任务，例如根据图片内容进行对话、从图像中读取文字、生成详细描述，以及基于视觉信息进行逻辑推理。

220

开源精选视觉模型

Kornia

其典型应用场景包括：增强现实与虚拟现实中的实时图像对齐与几何处理；自动驾驶中的视觉里程计与三维场景理解；图像生成与编辑中的可微分图像合成与风格迁移；机器人视觉中的特征匹配与位姿估计；以及学术研究中任何需要将几何先验知识融入深度学习模型的工作。

260

PyTorch Vision

其应用场景极为广泛，涵盖图像分类、目标检测、图像分割、关键点检测等主流视觉任务。例如，在医疗影像分析中可用于病灶识别，在自动驾驶中用于车辆与行人检测，在内容平台中用于图像自动标注与分类，在工业质检中用于缺陷识别。通过其提供的预训练模型和工具，开发者可以快速在这些领域构建和部署原型乃至生产系统。

260

开源精选视觉模型

SAM2

其技术可广泛应用于视频内容编辑与特效（如一键抠像）、医学图像分析（细胞或器官分割）、自动驾驶（道路场景理解）、AR/VR（实时物体交互）以及机器人视觉（物体抓取与操控）等领域，为需要精准像素级理解的视觉任务提供强大工具。

360

开源精选视觉模型

OmniParser

该工具可广泛应用于金融票据处理（如发票、收据信息提取）、法律合同分析（关键条款与实体识别）、医疗报告结构化、学术文献解析以及企业档案数字化管理等场景，显著提升海量非结构化文档数据处理的自动化水平和准确性。

500

开源精选视觉模型

Deep-learning-for-image-processing

Deep-learning-for-image-processing

项目中的技术可广泛应用于多个实际场景，例如：安防领域的人脸识别与目标追踪，医疗影像的病灶检测与分割，自动驾驶中的场景理解，互联网行业的图像内容审核与智能相册分类，以及艺术创作领域的图像风格化处理等。

230

CLIP

CLIP的应用场景广泛，包括但不限于：零样本图像分类（无需训练直接指定类别进行识别）、以文搜图/以图搜文、图像内容审核与过滤、辅助创意内容生成（为生成模型提供引导），以及作为多模态系统的强大视觉特征提取器。

220

开源精选视觉模型

Supervision

Supervision 是一个专为计算机视觉项目设计的开源Python工具库。它主要用于简化目标检测、实例分割和跟踪等模型输出的后处理与可视化流程。开发者可以借助它高效地处理模型推理结果，进行标注、过滤、跟踪以及生成丰富的可视化效果，从而加速从模型原型到实际部署的开发周期。

250

YOLOv5

YOLOv5的应用场景极为广泛。在工业制造中，可用于产品缺陷检测与分类；在智慧交通领域，实现车辆、行人、交通标志的实时识别；在零售行业，辅助进行货架分析和顾客行为洞察；在农业中，帮助进行作物病虫害监测；在安防与无人机巡检中，实现自动化的目标识别与告警。其高效性使其成为边缘计算和实时视频流分析的理想选择。

400