데이터 수집 방법
데이터를 구하는 방법은 크게 3 가지가 있다.
공개 데이터셋
이미 누군가 모아놓은 데이터
- Kaggle : 데이터와 경진대회 플랫폼
- HugginFace : AI 모델과 데이터를 공유하는 플랫폼
- 공공데이터포털
장점
수집과 정제가 이미 끝난 상태라 바로 사용할 수 있다.
비용도 들지 않는다.
단점
내가 원하는 데이터가 없을 수도 있다.
특히 최신 데이터는 없는 경우가 많다.
데이터가 어떻게 수집 되었는지 모를 수도 있다.
품질 검증이 필요하다.
공개 API
어떤 서비스에서 공식적으로 제공하는 통로
- Steam API
- Youtube API
- Naver API
장점
서비스 제공자가 공식적으로 허락한 방법이라 제일 안전하다.
법적인 리스크가 거의 없다.
단점
제공하는 데이터만 받을 수 있다.
웹 스크래핑
웹 페이지에서 데이터를 직접 긁어오는 방법
브라우저에서 보이는 건 무엇이든 가져올 수 있다.
- BeautifulSoup
- Selenium
- Scrapy
장점
자유도가 높다.
단점
법적 리스크가 있다.
이용약관 위반 , 업무방해 등으로 큰 문제가 될 수 있다.
API 호출 과정
1. 게임 ID 입력

스팀 기준으로 스팀 사이트에는 각각의 게임이 있고 게임 별로 고유의 ID 가 존재한다.
2. API 주소 생성

게임 별 고유의 ID 로 URL 을 생성한다.
스팀 리뷰 API 주소로 요청을 보내면 스팀 서버가 그 게임의 리뷰 데이터를 준다.
3. 응답 수신

서버가 응답을 보내주면 보통 JSON 형식으로 데이터를 보내준다.
JSON은 웹에서 데이터를 보내줄때 표준 형식이다.
중괄호 안에 키와 값이 쌍으로 들어있다.
Success : 1 은 요청이 성공했다는 뜻이다.
total_reviews : 5847 은 이 게임의 총 리뷰 수를 말한다.
API 응답 데이터 구조
{
"recommendationid": "12345678",
"author": {
"steamid": "76561198...",
"playtime_forever": 2520
},
"review": "진짜로 게임이라기보단 놀이터에 가깝지만 놀수도 있고 친구도 사귀고...",
"voted_up": true,
"timestamp_created": 1609459200,
"votes_up": 15,
"language": "korean"
}
- review : 리뷰 텍스트
- voted_up : true 는 추천, false 는 비추천
- playtime_forever : 플레이 시간 ( 분 단위 , ÷ 60 = 시간 )
- language : 리뷰 언어
'🤖AI Tools > AI 리뷰 분석' 카테고리의 다른 글
| Hades 리뷰 분석 (0) | 2026.04.22 |
|---|---|
| API 로 데이터 수집 2 (0) | 2026.04.22 |
| API 로 데이터 수집하기 (0) | 2026.04.22 |
| Python 정리 (0) | 2026.04.21 |
| 텍스트 리뷰 분석 (0) | 2026.04.14 |