Большие наборы данных

Я всегда ищу A ± для тестирования различных типов программ. У кого-нибудь есть предложения?

resources,dataset,

12

Ответов: 8


10 принят

Посмотрите конкурс netflix . Я считаю, что они предоставили свою базу данных или большое подмножество для облегчения конкурса.

ОБНОВЛЕНИЕ: их faq говорит, что у них есть 100 миллионов записей в подмножестве, который вы можете скачать.


Вы можете захотеть взглянуть на данные по Американской статистической ассоциации экспо данных - это информация о рейсе для всех коммерческих рейсов в США за последние 20 лет - 120 миллионов записей, 11 гигабайта данных.


2

Я проделал некоторую работу с наборами загрузок Wikimedia , которые представляют собой огромные файлы XML. К сожалению, на их сервере загрузки в настоящее время возникают проблемы с дисковым пространством, поэтому многие из наборов данных недоступны. Но когда он доступен, весь английский набор данных Wikipedia с полной историей составляет 2,8 ТБ (с сжатием 18 ГБ).


2

Ряд страниц тегов del.icio.us (включая меня), которые содержат общедоступные данные, используя тег publicdata. Вы можете найти этот архив здесь и подписаться на RSS-канал для этого тега здесь . Подпишитесь на канал, и вы увидите постоянный поток интересных наборов данных, которые появляются в Интернете.

Не все эти наборы данных большие, но они часто интересны.


1

Возможно, вам захочется взглянуть на генерацию случайных данных для тестирования Fuzz . Это даст вам довольно много неограниченного количества тестовых данных, и вы, скорее всего, столкнетесь с крайними случаями.

Может быть, какая-то дополнительная информация о том, какие тестовые данные вы хотите, в каком формате и для каких типов приложений?

ресурсы, набор данных,
Похожие вопросы