обучение пользовательскому объекту в YOLOv3, как это работает?

Мне нужен проект, который нужно обнаружить в аниме-стиле vedios

Я только что тестировал YOLOv3 608x608 с COCO в GTX 1050TI

однако скорость составляет всего около 1.5FPS, но мне нужно как минимум 10 FPS на 1050TI для моего проекта

1. Я хочу знать, что число классов будет влиять на скорость обнаружения? (Я предполагаю, что COCO собирается найти 80 видов объектов в картине? Если мне просто нужно найти один вид объекта, будет ли он идти быстрее на 80 раз?)

2. Когда я вводю изображение для обучения, оригинальное изображение - 1920 * 1080, следует ли изменять размер до 608x608 перед маркировкой и обучением?

3.Есть ли какой-либо инструмент для маркировки, который я должен использовать? в README.md по адресу https://github.com/AlexeyAB/darknet, по- <x> <y> <width> <height> видимому, нужно рассчитывать и вводить вручную, что кажется слишком сложным, может быть, есть инструмент, который мне нужно всего лишь обрезать, где объект находится на изображении?

4.Если объект не является квадратом на изображении, как YOLO знает, какая часть является объектом? Как избежать его тренировки фона как объекта?

мне нужно удалить весь фон и заполнить его как черный, сохранить объект только в изображении?

5. выводится всегда поле? Могу ли я тренироваться и получать результат в виде маски? если я обнаруживаю как маску, будет ли она медленнее, чем коробка, потому что, похоже, больше информации?

6. Чтобы получить хороший результат, сколько учебных изображений и тестового изображения я должен сделать?

Я знаю, что это просто какой-то вопрос на CV, но я действительно хочу это знать, не затрачивая недель на обучение и не отвечая на вопрос, ответ будет оценен!

opencv,computer-vision,object-detection,darknet,yolo,

0

Ответов: 2


0 принят

3.

https://en.wikipedia.org/wiki/List_of_manual_image_annotation_tools

Вы должны иметь возможность получить выходные координаты углов, используя инструмент аннотации изображения.

4.

С достаточным количеством изображений с различным фоном для обучения, предположительно, модель должна уметь игнорировать фон. Черный фон все еще является фоном. Я предполагаю, что это своего рода увеличение данных, поэтому это может помочь сократить переобучение.

5.

Если он не поддерживает маску из коробки, возможно, вы хотите сделать фоновое вычитание в качестве дополнительного шага для обработки вывода.


0

1) На мой взгляд, GTX 1050Ti недостаточно для тестирования YOLO v3. Потому что размер модели (то есть количество слоев) YOLO v3 становится чрезвычайно большим по сравнению с предыдущими версиями. В этом случае количество классов не будет иметь значения. Если вы хотите быстро вычислить скорость вычислений, вы должны обновить свой GPU, как 1070Ti.

2) Независимо от размера входных изображений он будет изменен в заранее определенный размер, который будет отображаться как файл cfg, с помощью силы, поэтому вам не нужно изменять размер входного изображения.

OpenCV, компьютер-видение, объект обнаружения, даркнет, Yolo,
Похожие вопросы