Como importar o banco de dados do IMDB usando imdbpy

Como importar o banco de dados do IMDB para o PostgreSQL usando o imdbpy

#dev, #docker

Iniciar o servidor

Se você não tem uma versão do PostgreSQL na sua máquina você pode rodar usando o Docker:

$ docker run -v imdb:/var/lib/postgresql/data --name imdbpg --rm postgres

Instalar as dependências básicas

Nós vamos precisar do python3, git, and wget.

Se você está usando o Docker antes de instalar as dependências rode os comandos:

$ docker exec -it imdbpg bash
# apt-get update

E instale as dependências usando apt-get:

# apt-get --yes install python3-dev python3-pip wget git postgresql-server-dev-all

Passo 1: Instalar as ferramentas necessárias

Vamos instalar o imdbpy do github e o psycopg2:

# pip3 install git+https://github.com/alberanid/imdbpy psycopg2

Passo 2: Baixe os tsv.gz

Você pode usar uma regex para baixar somente os arquivos com o padrão tsv.gz:

# wget -A "*tsv.gz" --mirror "https://datasets.imdbws.com/"

Passo 3: Importar os dados

# su -c "createdb imdb" postgres
# s32imdbpy.py --verbose /datasets.imdbws.com/ postgres://postgres@localhost/imdb

Isso é tudo 😉.

Posts nesta série

Referências