RSS와 feed에 대해서 알아보고 단순 반복 작업을 하지 않아도 되도록 자료수집 페이지를 만들어 보자
RSS는 무엇????
RSS(Really Simple Syndication, Rich Site Summary)란 블로그처럼 컨텐츠 업데이트가 자주 일어나는 웹사이트에서, 업데이트된 정보를 쉽게 구독자들에게 제공하기 위해 XML을 기초로 만들어진 데이터 형식

RSS리더기에 원하는 정보의 RSS주소를 추가하여 실시간으로 업데이트 데이터를 확인 할수 있다.
Feed43는 무엇????
Feed43은 RSS 를 추출 해주는 사이트
Feed43 : Convert web pages into professionally looking RSS feeds
Feed43: Convert web pages into professionally looking RSS feeds.
Offer your customers a convenient way to follow your news. Use Feed43 as a powerful information aggregation platform for your business. Or use Feed43 to streamline the way you read the news from websites you care about.
feed43.com
Feedly는 무엇????
Feedly는 RSS 리더
https://feedly.com/
Feedly – More signal, less noise
Keep up with the topics and trends you care about, without the overwhelm. Make your research workflow efficient and enjoyable. Experience the power of RSS.
feedly.com
Feed43을 이용하여 내가 원하는 정보를 RSS로 만들고 Feedly에 등록하여 실시간 자료수집을 해보자
1. 대상선정
토지이음 사이트에서 택지정보의 새로운 고시문에 대해 실시간 자료 수집이 가능하게끔 해보자

feed43.com에 접속하여 제일 아래쪽에 위치한 create your first feed 버튼을 클릭


사이트 이용 약관에 대해서 동의를 하고 수집 대상 URL 주소를 입력




URL 주소를 입력하고 Reload 버튼을 클릭하면 PageSource가 나온다

수집 대상 정보는 고시정보 테이블에서 고시명과 해당 고시문 링크주소를 수집할 예정
2. 수집대상 데이터 추출

STEP2의 설명을 읽어보면 추출할 데이터에 대한 패턴을 어떻게 생성할 수 있는지 자세히 나옴

먼저 Item (repeatable) Search Pattern*을 정의
<a href='{%}' title='{%}' >

3. RSS 정의 및 생성




Feed URL: https://feed43.com/0428603582231024.xml ?
Point your feed reader to this URL or click to open it.
Edit URL: https://feed43.com/feed.html?name=0428603582231024 ?
Please save this link for future use.

눈이 아프지만 Feedly에 방금 생성한 RSS를 넣어보자
4. Feedly 연동
Feedly 사이트에 접속해서 계정을 생성하자
공짜니까 안심하고 생성하자




좌측에 CREATE A FOLDER를 선택하여 NEW_GOSI라고 하나 생성하자


문제 발생
※ feedly에 생성한 rss주소를 넣으면 URL주소가 node2.feed43.com으로 변경이 되면서 접속이 안되는 현상이 발생함
이것저것 찾다 보니
HSTS(HTTP Strict Transport Security)
HSTS(HTTP Strict Transport Security)는, Web Site에 접속할 때, 강제적으로 HTTPS Protocol로만 접속하게 하는 기능. HTTPS Protocol을 지원하는 Web Site 에서, 자신은 HTTPS Protocol만 사용해서 통신할 수 있음을, 접속하고자 하는 Web Browser에게 알려 주는 기능. 보안을 강화시킬 목적으로, Web Browser에게 HTTPS Protocol만 사용하도록 강제하는 기능
이것 때문에 오류가 계속 발생했음
Feed43: Convert web pages into professionally looking RSS feeds.
Offer your customers a convenient way to follow your news. Use Feed43 as a powerful information aggregation platform for your business. Or use Feed43 to streamline the way you read the news from websites you care about.
feed43.com
문제해결
https://feed43.com이이 아닌 http://node2.feed43.com 에 접속해서 rss를 생성하면 오류 발생하지 않음




- 매일매일 사이트에 접속해서 새로운 글이 작성된것이 있나 없나 확인 안해도 됨
- 토지이음 뿐만 아니라 시군구, 도청, 개발공사 등 다른 사이트에도 응용가능
- 추가로 좀 더 생각해보면 python이랑 연동해서 첨부된 파일까지 자동 수집 되게끔 가능하지 않을까?
- htts://feed43.com http://node2.feed43.com 문제 때문에 생각보다 시간이 많이 걸림