Como importar o banco de dados do IMDB usando imdbpy
Iniciar o servidor
Se você não tem uma versão do PostgreSQL na sua máquina você pode rodar usando o Docker:
$ docker run -v imdb:/var/lib/postgresql/data --name imdbpg --rm postgres
Instalar as dependências básicas
Nós vamos precisar do python3
, git
, and wget
.
Se você está usando o Docker antes de instalar as dependências rode os comandos:
$ docker exec -it imdbpg bash
# apt-get update
E instale as dependências usando apt-get
:
# apt-get --yes install python3-dev python3-pip wget git postgresql-server-dev-all
Passo 1: Instalar as ferramentas necessárias
Vamos instalar o imdbpy do github e o psycopg2:
# pip3 install git+https://github.com/alberanid/imdbpy psycopg2
Passo 2: Baixe os tsv.gz
Você pode usar uma regex para baixar somente os arquivos com o padrão tsv.gz
:
# wget -A "*tsv.gz" --mirror "https://datasets.imdbws.com/"
Passo 3: Importar os dados
# su -c "createdb imdb" postgres
# s32imdbpy.py --verbose /datasets.imdbws.com/ postgres://postgres@localhost/imdb
Isso é tudo 😉.