Training Data

Overview

The Reciclaje AI model has been trained on a diverse dataset of waste imagery, focusing on common recyclable materials found in household and commercial waste streams. The training data ensures the model can accurately identify and classify different types of waste materials.

The model was trained specifically for the 5 core waste categories: Metal, Glass, Plastic, Carton, and Medical waste.

Dataset Composition

Waste Categories

The training dataset includes images across all 5 detection classes:

Metal (Class 0)

Examples include:

Aluminum cans (soda, beer)
Metal food containers (tin cans)
Metal bottle caps
Small metallic objects and packaging

Images captured various sizes, conditions, and orientations of metal waste items.

Glass (Class 1)

Examples include:

Glass bottles (clear, green, brown)
Glass jars and containers
Broken glass pieces
Various glass packaging materials

Training data includes different glass colors and transparency levels.

Plastic (Class 2)

Examples include:

PET bottles (water, soft drinks)
Plastic containers and packaging
Plastic bags and film
Various plastic product types

Includes different plastic types, colors, and forms commonly found in waste.

Carton (Class 3)

Examples include:

Cardboard boxes (various sizes)
Paper cartons (milk, juice)
Corrugated cardboard
Paperboard packaging

Training images include both clean and slightly damaged cardboard materials.

Medical (Class 4)

Examples include:

Disposable masks
Medical gloves
Healthcare-related waste items
Sanitization materials

Focused on common medical waste items found in general waste streams.

Data Characteristics

Image Variety

The training dataset was designed to include:

Multiple Angles: Objects photographed from different perspectives
Varying Lighting: Images captured under different lighting conditions
Different Backgrounds: Various environmental contexts
Mixed Conditions: Clean and dirty/damaged items
Scale Variation: Objects at different distances and sizes

Real-World Scenarios

The model was trained on real-world waste imagery to ensure practical applicability in actual recycling and waste management scenarios.

Training data reflects common scenarios such as:

Items in recycling bins
Waste on conveyor belts
Mixed waste situations
Individual items against various backgrounds

Data Preprocessing

Standard YOLOv8 preprocessing techniques were applied:

# Typical preprocessing steps
- Image resizing and normalization
- Data augmentation (rotation, scaling, brightness adjustment)
- Bounding box annotation
- Train/validation split

Dataset Limitations

While comprehensive, the training data has some limitations:

Rare Items: The model may not recognize waste items that were rarely or never included in the training set.

Underrepresented Scenarios

Certain conditions may be underrepresented:

Extreme lighting conditions (very dark or bright)
Unusual perspective angles
Heavily damaged or degraded items
Uncommon waste item variations
Items with significant occlusion

For detailed information about model limitations, see the Limitations page.

Continuous Improvement

The model can be improved through:

Additional Training Data: Expanding the dataset with more diverse examples
Fine-tuning: Adjusting the model for specific use cases or environments
Active Learning: Incorporating feedback from real-world deployments

Contributing Data

If you have waste imagery that could improve the model:

Collect Images

Gather clear, well-lit images of waste items from the 5 categories.

Annotate

Label bounding boxes and assign correct class IDs.

Consider contributing to the open-source project or training your own fine-tuned version.

Technical Details

Annotation Format

The model uses YOLO format annotations:

<class_id> <x_center> <y_center> <width> <height>

Where coordinates are normalized (0-1) relative to image dimensions.

Class Mapping

clsName = ['Metal', 'Glass', 'Plastic', 'Carton', 'Medical']

# Class ID to name mapping:
# 0 -> Metal
# 1 -> Glass
# 2 -> Plastic
# 3 -> Carton
# 4 -> Medical

Get Started

Concepts

Installation

Usage

Model

Resources

Overview

Dataset Composition

Waste Categories

Data Characteristics

Image Variety

Real-World Scenarios

Data Preprocessing

Dataset Limitations

Underrepresented Scenarios

Continuous Improvement

Contributing Data

Technical Details

Annotation Format

Class Mapping

Next Steps

Model Overview

Limitations

Build docs developers (and LLMs) love

Get Started

Concepts

Installation

Usage

Model

Resources

Documentation Index

​Overview

​Dataset Composition

​Waste Categories

​Data Characteristics

​Image Variety

​Real-World Scenarios

​Data Preprocessing

​Dataset Limitations

​Underrepresented Scenarios

​Continuous Improvement

​Contributing Data

​Technical Details

​Annotation Format

​Class Mapping

​Next Steps

Model Overview

Limitations

Build docs developers (and LLMs) love

Overview

Dataset Composition

Waste Categories

Data Characteristics

Image Variety

Real-World Scenarios

Data Preprocessing

Dataset Limitations

Underrepresented Scenarios

Continuous Improvement

Contributing Data

Technical Details

Annotation Format

Class Mapping

Next Steps