RSS новини - Агрегатор и 50 процента по-бърз - RSS новини
Вие сте тук:

RSS новини - Агрегатор и 50 процента по-бърз

Е-мейл Печат ПДФ
На 16 май започнахме да агрегираме някои от най-важните и най-проблемните области от съдържанието в нашия сайт. Какво, как, защо и колко...

RSS новини - Агрегатор и 50 до 80 процента по-бърз

На 16 май започнахме да агрегираме някои от най-важните и най-проблемните области от съдържанието в нашия сайт.

Какво, как, защо и колко?

Какво и защо се наложи да направим?

До момента по-наблюдателните от вас сигурно са забелязвали някои проблеми, а именно че се среща често дублирано съдържание и неточности в датата на новината (при блоговете ). Откъде идва проблема?

Естествено от това, че част от съдържанието на RSS-ите идва от сборни емисии на различни Български агрегатори, които не работят на 100% коректно. Не че са лоши като сайтове, напротив, повечето са чудесни, но има някои проблеми като например:

  • Ако блога е известен и добър , той се включва във всички (или почти всички) големи агрегатори и оттам се получава дублиране в съдържанието.
  • Получават се проблеми при енкодинга
  • Проблеми при отчитане точната дата и час на новината

За проблеми с енкодинга следят строго и уебмастерите на тези сайтове, така че се среща относително рядко. Проблема за отчитане точния час и време на новината се среща пък само при определени сайтове и не е много фатален, тъй като сайта ни отчита кога новината е влезнала в сайта и ги подрежда по реда на влизането в базата данни.

Най-значим се оказва проблема с дублираното съдържание още повече когато това се отнася за нашето "сайтче" от 100 хиляди страници. Дублиране на съдържание от дори 2% означава 2000 страници с тенденция за увеличаване и никакъв смисъл от маса часове за труд за поддръжка за да се трият дублираните новини.

Държа да отбележа, че новини се дублират не само поради дублиране на RSS емисиите на големите блогове в българските агрегатори, но и в социалните сайтове . Там проблема е още по-голям, тъй като 30-40% от съдържанието се дублира като заглавия и/или линкове на новината.

Третата голяма област на конкуренция е "IT и софтуерни новини " като там борбата е между download.bg, kaldata.com, sofvisia и notrial.info. Всеки от тези сайтове е много добър и уникален сам за себе си, но много често се получава същото като при социалните мрежи - новина с едно и също заглавие, което обикновено е заглавието на софтуера/програмата.

 

Какво правим за решение на проблемите?

За начало агрегираме и филтрираме съдържание от областите, които са най-проблемни:

Как работи системата?

  1. Съдържанието се тегли през RSS емисията на конкретния сайт
  2. Обединяват се фийдовете на агрегираните източници
  3. Новините се подреждат по дата, час и минута на публикуване на новината
  4. Филтрира се за дублиращи се линкове на новини
  5. Филтрира се за дублиращи се заглавия
  6. Извежда се филтрираното съдържание на нашия сайт
  7. Новините влизат в 16-те RSS емисии (скоро ще са 25)

Възможни проблеми са неминуемото получаване на известни дублирания на новини от тези области, за период от около 2 дни, за толкова време се обновяват напълно емисиите на повечето от тези сайтове.

След това ще можем да се радваме на едно по-често обновяващо се и по-подредено съдържание без дублирания на новини. В сайта ще влиза най-рано излязлата новина, което в 99% от случаите означава, че той е първоизточника и естествено, най-справедливо е линка да сочи към него и да се публикува неговата новина.

Нищо от новините няма да бъде променяно, както пише в нашия ЛИЦЕНЗ , просто в сайта ще влиза първата новина, а всички други, водещи към същия линк и със същото заглавие няма да се публикуват. 

Например блогър "Х" публикува една и съща новина "У" на svejo.net, на dao.bg и на ping.bg. На който сайт първа излезе новината, тя влиза в нашия сайт. Всички други със същото или подобно заглавие, водещи към същия линк просто се игнорират и не се публикуват. 

 

Като "странични ефекти" при тези ъпдейти получаваме гратис 50 до 80% по-бързо зареждане на сайта, за което отново благодарим на Хост България  - нашия хостинг доставчик и техните нови, по-мощни сървъри.

За малко да забравя и възможностите за превод на 23 езика, powered by Google, за да може всички новини от България да се четат не само на Български, но и на английски и на всички други поддържани езици. По този начин вашата новина ще прочетат не само българи, но и чужденци живеещи в България, а съвсем скоро и хора от цялата планета. Това между другото беше и първия новинарски сайт в България с такива възможности.

 

Последна промяна ( Събота, 17 Май 2008 03:11 ) 
 
Сайт за SEO услуги: SEO услуги от SEO BG

Translation

Новините днес: RSS емисии