넷플릭스 영화 목록 API - nespeulligseu yeonghwa moglog API

Question

4416개 넷플릭스 시놉시스를 크롤링했다. 이제 이 영화/드라마의 네이버에서의 시놉시스를 크롤링하면 된다.

네이버 영화 API가 있어서 이걸로 수집하면 된다는데 모르겠다.. 그래서 그냥 하던대로 했다.

우선 네이버에 드라마/영화 제목을 검색하면 (당연히) 시놉시스가 다른 태그에 들어있어서 둘을 나눠서 수집해야 한다.

드라마는 검색한 페이지에 바로 전체 시놉시스가 뜬다.

검색 페이지에선 ... 가 있어서 전체 시놉시스가 안 보이는 듯하지만, 페이지 소스에는 전체 시놉시스가 들어있다! 전체 시놉시스가 들어있는 태그의 id는 "layer_sy"

근데 영화는 아님.

영화는 페이지 소스를 열어봐도 ... 밖에 없다. 전체 시놉시스는 더보기에 연결된 링크로 가야 확인할 수 있다. 더보기 링크가 있는 태그의 class는 "cont_more"

더보기를 클릭하면 뜨는 새로운 페이지.

여기서 전체 시놉시스가 있는 p 태그의 class는 "con_tx"다.

일단 쉬운 드라마부터 하자!

우선 저번 넷플릭스 크롤링에서 수집한 드라마 제목의 리스트가 필요하다. 넷플릭스 파일을 불러와서 드라마만 있는 df를 만들어준다.

import pandas as pd
df = pd.read_csv('movie_project.csv')
drama = df[df["genre"]=='드라마']

그리고 검색어를 이용해 크롤링한다. 네이버에 '비밀의 숲'이라고 검색하면 다음과 같은 주소가 만들어진다.

* search.naver.com/어쩌구저쩌구&query=[검색어]

근데 이 주소를 복붙해보면 한글로 '비밀의+숲' 이렇게 나오는게 아니라

https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=%EB%B9%84%EB%B0%80%EC%9D%98+%EC%88%B2

알 수 없는 문자로 변한다. 얘네 이름이 뭐였지!!! 수업시간에 들어본 거 같기도 한데 기억이 안난다.

어쨌든 이렇게 괴상한 문자로 바꿔준 url을 줘야 크롤링이 가능하다. 이걸 어떻게 바꾸는지 구글링 하느라 넘 힘들었다.

쨌든 quote 뭐시기를 이용하면 된다.

quote(비밀의+숲) = %EB%B9%84%EB%B0%80%EC%9D%98+%EC%88%B2

# 네이버 드라마 시놉시스를 저장할 새로운 df
df2 = pd.DataFrame(columns=["title", "naver"])
count=0

from urllib.parse import quote
from urllib.request import urlopen

for title in drama['title']:
    url = "https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query="+quote(title)
    with urllib.request.urlopen(url) as url:
        try:
            doc = url.read()
            soup = BeautifulSoup(doc, "html.parser")
            naver = soup.find_all(id="layer_sy")[0].text.strip()
            df2.loc[count] = [title, naver]
            count+=1
            
        except:
            pass

그럼 이런 df2 완성~!

이제 좀 번거로운 영화. 영화는 for문을 두 번 돌려야 한다. 우선 드라마와 마찬가지로 넷플릭스에서 수집한 영화 이름을 for문으로 돌려 네이버 검색 페이지를 받는다. 그 페이지에서 더보기에 연결된 url을 리스트로 저장한다. 이 더보기 url을 다시 for문으로 돌려서 전체 시놉시스를 저장한다.

from urllib.parse import quote
from urllib.request import urlopen

# 더보기 url을 저장할 리스트 
movie_url=[]

for title in movie['title']:
    url = "https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query="+quote(title)
    with urllib.request.urlopen(url) as url:
        try:
            doc = url.read()
            soup = BeautifulSoup(doc, "html.parser")
            
            link = soup.find_all(class_="cont_more")[0]['href']
            movie_url.append(link)
            
        except:
            pass

그럼 movie_url은 이런 리스트가 된다.

# 네이버 영화 시놉시스를 저장할 df 만들기
df3 = pd.DataFrame(columns=["title", "naver"])
count=0

for url in movie_url:
    try:
        with urllib.request.urlopen(url) as url:
            doc = url.read()
            soup = BeautifulSoup(doc, "html.parser")
            
            title = soup.find_all("title")[0].text.strip()[:-9]
            naver = soup.find_all("p", class_="con_tx")[0].text.strip()
            df3.loc[count] = [title, naver]
            count+=1
            
    except:
        pass

df3도 완성!

이제 넷플릭스 + 네이버 드라마 + 네이버 영화 데이터를 합쳐주기만 하면 된다.

네이버 드라마 df에 이 작품들이 네이버 드라마임을, 네이버 영화 df에 이 작품들이 네이버 영화임을 명시하는 칼럼을 추가한다.

df2['genre'] = '드라마'
df2['media'] = 'naver'

df3['genre'] = '영화'
df3['media'] = 'naver'

그럼 df2와 df3는 이렇게 된다.

이제 df2, df3를 naver라는 이름으로 합쳐준다.

# df2, df3 합치기
naver = pd.concat([df2, df3])

# 칼럼 이름 naver에서 desc로 바꾸기
naver = naver.rename(columns={"naver": "desc"})

같은 방식으로 넷플릭스 데이터도 약간 cleaning 해주고 csv 파일로 저장하면 끝!

넷플릭스 오픈 API 넷플릭스 API 넷플릭스 크롤링 영화 DB API 넷플릭스 한국영화리스트 넷플릭스 드라마 목록 미국 넷플릭스 목록 영화 API 추천

넷플릭스 영화 목록 API - nespeulligseu yeonghwa moglog API

관련 게시물

고레에다 히로카즈 결혼 - goleeda hilokajeu gyeolhon

네스트 호텔 숙박비 - neseuteu hotel sugbagbi

키움증권 api 수수료 - kiumjeung-gwon api susulyo

모브사이코 2기 왓챠 - mobeusaiko 2gi waschya

명탐정 피카츄 메타몽 - myeongtamjeong pikachyu metamong

넷플릭스 저장 가능 디바이스 수 초과 - nespeulligseu jeojang ganeung dibaiseu su chogwa

마법공학 아수라장 가격 - mabeobgonghag asulajang gagyeog

ExpressVPN 넷플릭스 오류 - ExpressVPN nespeulligseu olyu

넷플릭스 공유 요금 - nespeulligseu gong-yu yogeum

구글파이낸스 roe - gugeulpainaenseu roe

광고하는

최근 소식

미밴드 6 APP 에 연결 후 다시 업데이트 - mibaendeu 6 APP e yeongyeol hu dasi eobdeiteu

맥용 워드 무료 다운로드 - maeg-yong wodeu mulyo daunlodeu

UFC 여자 순위 - UFC yeoja sun-wi

원피스 과학 기술 - wonpiseu gwahag gisul

과일 쥬스 궁합 - gwail jyuseu gunghab

죽음 암시 노래 - jug-eum amsi nolae

이산화탄소 배출량 - isanhwatanso baechullyang

지박소년 하나코 군 리디 북스 - jibagsonyeon hanako gun lidi bugseu

헤드 라인 R 폰트 - hedeu lain R ponteu

인스타 스토리 좋아요 안뜸 - inseuta seutoli joh-ayo antteum

광고하는

포퓰러

광고하는

에 대한

합법적인

돕다

사회의