๐Ÿ“Š Data Analysis/๐ŸŽฏ Project

์‹ค์ „ ํ”„๋กœ์ ํŠธ : ํƒœ๋ธ”๋กœ ์˜ํ™” ์ถ”์ฒœ ๋Œ€์‹œ๋ณด๋“œ ๋งŒ๋“ค๊ธฐ (1)

ny:D 2024. 7. 15. 12:42

์‹ค์ „ ํ”„๋กœ์ ํŠธ : What's Next?

 

์ฃผ์ œ์„ ์ • ๋ฐฐ๊ฒฝ

์ฃผ์ œ ์„ ์ • ๊ณผ์ •์—์„œ, ํƒœ๋ธ”๋กœ์— ์กฐ๊ธˆ ๋” ์ง‘์ค‘ํ•˜๊ณ ์ž '๊ณผ๊ฑฐ ๋งˆ๋ธ” ์˜ํ™” ํฅํ–‰ ๋ถ„์„์„ ํ†ตํ•œ ์‹ ๊ทœ ๋งˆ๋ธ” ์ปจํ…์ธ  ๊ธฐํš'์„ ์ฃผ์ œ๋กœ ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๋ ค๊ณ  ํ–ˆ๋‹ค. ๊ทธ๋Ÿฌ๋‚˜, ๊ธฐ์ˆ ์  ํ•œ๊ณ„๋กœ ์›นํฌ๋กค๋ง์„ ํ™œ์šฉํ•ด ๋ฐ์ดํ„ฐ๋ฅผ ์ˆ˜์ง‘ํ•  ์ˆ˜ ์—†์—ˆ๊ธฐ์— kaggle์— ๊ณต์œ ๋œ 'TMDB' ๋ฐ์ดํ„ฐ๋ฅผ ์„ ์ •ํ•ด ํ”„๋กœ์ ํŠธ๋ฅผ ์ง„ํ–‰ํ•˜๊ฒŒ ๋˜์—ˆ๋‹ค. 

ํ”„๋กœ์ ํŠธ ๊ธฐํš

๊ฐœ์š”

๐ŸŒˆ ‘์ฟ ํŒกํ”Œ๋ ˆ์ด’์˜ ๋ฐ์ดํ„ฐ ๋ถ„์„๊ฐ€์ธ ์ €ํฌ๋Š” 8์›”์— ์ƒˆ๋กญ๊ฒŒ ๋Ÿฐ์นญํ•  ์˜ํ™”๋ฅผ ์•Œ๊ณ  ์‹ถ๋‹ค๋Š” ์‚ฌ์—…ํŒ€์˜ ์š”์ฒญ์„ ๋ฐ›์•˜์Šต๋‹ˆ๋‹ค.
  • TMDB ๋ฐ์ดํ„ฐ ์‹œ๊ฐํ™”๋ฅผ ํ†ตํ•ด Tableau ๋Œ€์‹œ๋ณด๋“œ ์ œ์ž‘ ๋Šฅ๋ ฅ์„ ๊ธฐ๋ฅด๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
  • TMDB ๋ฐ์ดํ„ฐ ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ํฅํ–‰ ์ž‘ํ’ˆ, ๊ตญ๊ฐ€๋ณ„ ์„ ํ˜ธ๋„, ROI ๋“ฑ์„ ๋ถ„์„ํ•˜๊ณ  ๋‹ค์Œ ์‹ ๊ทœ ์ปจํ…์ธ  ์ œ์ž‘ ์‹œ ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์‹œ๋ณด๋“œ๋ฅผ ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์ด ๋ชฉํ‘œ์ž…๋‹ˆ๋‹ค.
  • TMDB ๋ฐ์ดํ„ฐ ์…‹์„ ์‚ฌ์šฉํ•˜์—ฌ ํฅํ–‰ ํŠธ๋ Œ๋“œ, ๊ด€๊ฐ ์ˆ˜, ์ƒ์˜ ๊ธฐ๊ฐ„, ์ˆ˜์ต๋ฅ  ๋“ฑ์„ ๋ถ„์„ํ•˜์—ฌ ์‚ฌ์—…ํŒ€์ด ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์‹œ๋ณด๋“œ๋ฅผ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค.

๋ชฉํ‘œ

๐ŸŒˆ ์˜ํ™” ํฅํ–‰ ์š”์†Œ ๋ถ„์„์„ ํ†ตํ•ด ์‹ ๊ทœ ์˜ํ™” ์ˆ˜์ž…์— ์ฐธ๊ณ ํ•  ์ˆ˜ ์žˆ๋Š” ๋Œ€์‹œ๋ณด๋“œ๋ฅผ ์ œ์ž‘ํ•ฉ๋‹ˆ๋‹ค.
  • ๊ฐ ์š”์†Œ๋ณ„ ์ƒ๊ด€ ๊ด€๊ณ„ ๋ถ„์„: TMDB ์ ์ˆ˜์™€ ๊ฐ ์š”์†Œ๊ฐ€ ์–ด๋–ป๊ฒŒ ์ƒ๊ด€๊ด€๊ณ„๊ฐ€ ์žˆ๋Š”์ง€๋ฅผ ํŒŒ์•…ํ•˜๊ณ  ์ •๋Ÿ‰์ ์œผ๋กœ ํ‘œํ˜„ํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
  • ์˜ํ™” ์ถ”์ฒœ ๊ธฐ๋ฐ˜ ๋Œ€์‹œ๋ณด๋“œ ๋งŒ๋“ค๊ธฐ: ์ปจํ…์ธ  ๊ธฐ๋ฐ˜ ๋ฐ ํ‰์  ๊ธฐ๋ฐ˜ ์ถ”์ฒœ์„ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.
  • ํŽธ๋ฆฌํ•œ ๋Œ€์‹œ๋ณด๋“œ ์ธํ„ฐํŽ˜์ด์Šค: ์ง๊ด€์ ์ด๊ณ  ์‚ฌ์šฉํ•˜๊ธฐ ์‰ฌ์šด ๋Œ€์‹œ๋ณด๋“œ ๋””์ž์ธ๊ณผ ์‚ฌ์šฉ์ž ์นœํ™”์ ์ธ ์ธํ„ฐํŽ˜์ด์Šค ์ œ๊ณตํ•˜๋Š” ๊ฒƒ์„ ๋ชฉํ‘œ๋กœ ํ•ฉ๋‹ˆ๋‹ค.

๋ฐ์ดํ„ฐ ์†Œ๊ฐœ

์˜ํ™” ํ‰๋ก ์‚ฌ์ดํŠธ TMDB์˜ ์˜ํ™” ์ œ๋ชฉ, ํ‰์ , ํ‰์  ์ˆ˜ ๋“ฑ ๋‹ค์–‘ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ๋Š” ๋ฐ์ดํ„ฐ ์…‹.
→ ๋ฐ์ดํ„ฐ ํฌ๊ธฐ: 1,059,590(rows) X 23 (columns)

 

Full TMDB Movies Dataset 2024 (1M Movies)

Complete dataset containing movie data from TMDb. Updated Daily

www.kaggle.com

 

๐Ÿ’ก ์–ด๋ ค์› ๋˜ ์  

- ๋งŽ์€ ์ด์ƒ์น˜๋“ค์„ ์–ด๋–ป๊ฒŒ ์–ผ๋งˆ๋‚˜ ์ฒ˜๋ฆฌํ•ด์•ผํ•˜๋Š”์ง€ ๊ณ ๋ฏผ

- ์ฝค๋งˆ๋กœ ์—ฌ๋Ÿฌ๊ฐœ์˜ ๋ฐ์ดํ„ฐ๋ฅผ ์—ฐ๊ฒฐํ•ด ์ ์–ด๋‘” genres, prodution_companies, keywords๋ฅผ ์–ด๋–ป๊ฒŒ ์ฒ˜๋ฆฌํ• ์ง€ ๊ณ ๋ฏผ

- ์ถ”๊ฐ€์  ์ •๋ณด๋ฅผ ์–ด๋–ป๊ฒŒ ์ˆ˜์ง‘ํ•ด์•ผํ• ์ง€ ๊ณ ๋ฏผ