Семантический подход к контекстной рекламе

Контекстная реклама или Context Match (CM) относится к размещению коммерческой текстовой рекламы в контенте общей веб-страницы, в то время как реклама Sponsored Search (SS) заключается в размещении рекламы на страницах результатов из поисковой системы в Интернете, причем реклама управляется исходный запрос. В CM обычно есть промежуточная коммерческая рекламная сеть, отвечающая за оптимизацию выбора рекламы с двойной целью увеличения дохода (совместно используемого издателем и рекламной сетью) и улучшения взаимодействия с пользователем. С учетом этих целей предпочтительно иметь рекламу, относящуюся к содержанию страницы, а не общую рекламу.

Рынок SS развивался быстрее рынка CM, и большинство текстовых объявлений по-прежнему характеризуются «фразами предложений», представляющими те запросы, на которые рекламодатели хотели бы, чтобы их реклама отображалась. Следовательно, первые технологии для CM основывались на предыдущих решениях для SS, просто извлекая одну или несколько фраз из заданного содержимого страницы и отображая рекламу, соответствующую поиску по этим фразам, в чисто синтаксическом подходе. Однако из-за капризов извлечения фраз и отсутствия контекста этот подход приводит ко многим нерелевантным объявлениям. Чтобы преодолеть эту проблему, мы предлагаем систему сопоставления контекстной рекламы, основанную на сочетании семантических и синтаксических особенностей.

Веб-реклама поддерживает большую часть современной интернет-экосистемы. По данным TNS Media Intelligence, общие расходы интернет-рекламодателей в 2005 году оцениваются в 8,3 миллиарда долларов и выросли на 13,3% по сравнению с предыдущим годом. Большая часть этого рынка состоит из текстовой рекламы, то есть коротких текстовых сообщений, обычно помечаемых как «рекламные ссылки» или аналогичных. Основные каналы рекламы, используемые для распространения текстовой рекламы:

1. Sponsored Search или платная поисковая реклама, которая заключается в размещении рекламы на страницах результатов из поисковой системы в Интернете, причем объявления управляются исходным запросом. Все основные современные поисковые системы в Интернете (Google, Yahoo !, и Microsoft) поддерживают такую ​​рекламу и действуют одновременно как поисковая система и рекламное агентство.

2. Context Match  или Контекстная реклама, которое относится к размещению коммерческих объявлений в контенте общей веб-страницы. В контекстной рекламе обычно есть коммерческий посредник, называемый рекламной сетью, отвечающий за оптимизацию выбора рекламы с двойной целью увеличения дохода (совместно используемого издателем и рекламной сетью) и улучшения пользовательского опыта. Опять же, все основные современные поисковые системы в Интернете (Google, Yahoo !, и Microsoft) предоставляют такие рекламные сетевые услуги, но есть также и более мелкие игроки.

Рынок SS развивался быстрее рынка CM, и большинство текстовых объявлений по-прежнему характеризуются «фразами предложений», представляющими те запросы, на которые рекламодатели хотели бы, чтобы их реклама отображалась. («Краткую историю» см. в [5]). Однако сегодня почти все коммерческие нетранзакционные веб-сайты (то есть сайты, которые ничего не продают напрямую) полагаются, по крайней мере частично, на доход от контекстного соответствия. CM поддерживает сайты, которые варьируются от отдельных блоггеров и небольших нишевых сообществ до крупных издателей, таких как крупные газеты. Без этой модели сеть была бы намного меньше! Распространенная модель ценообразования для текстовых объявлений заключается в том, что рекламодатели платят определенную сумму за каждый клик по объявлению (плата за клик или PPC). Также используются другие модели: оплата за показ, когда рекламодатели платят за количество показов рекламы, и плата за действие, когда рекламодатель платит только в том случае, если объявление приводит к продаже или аналогичной транзакции. Для простоты мы имеем дело только с моделью PPC в этой статье.

Для данной страницы вместо размещения общих объявлений предпочтительнее размещать объявления, связанные с контентом, чтобы повысить удобство использования и повысить вероятность кликов. Эта интуиция поддерживается аналогией с обычными изданиями, где есть очень успешные журналы (например, Vogue), где большая часть контента – тематическая реклама (мода в случае Vogue), и исследованиями пользователей, которые подтвердили, что повышение релевантности увеличивает число рекламных кликов [4, 14].

Предыдущие опубликованные подходы оценивали релевантность рекламы, основываясь на совместном появлении одних и тех же слов или фраз в объявлении и на странице (более подробно см. [8, 7] и соответствующий раздел работы). Однако механизмы таргетинга, основанные исключительно на фразах, найденных в тексте страницы, могут привести к проблемам: например, страница о знаменитом игроке в гольф по имени «Джон Майтаг» может вызвать показ рекламы «Посудомоечные машины Maytag», поскольку Maytag является популярным брендом. Другим примером может быть страница, описывающая внедорожник Chevy Tahoe, который запускает рекламу об отдыхе на озере Тахо. Полисемия – не единственный виновник: есть (возможно, апокрифическая) история о странном новостном сообщении о безголовом теле, найденном в чемодане, которое вызывает рекламу багажа Samsonite! Во всех этих примерах несоответствие возникает из-за того, что реклама не соответствует контексту.

Чтобы решить эту проблему, мы предлагаем механизм сопоставления, который сочетает семантическую фазу с традиционным сопоставлением ключевых слов, синтаксическую фазу. Семантическая фаза классифицирует страницу и объявления в таксономию тем и использует близость классов объявлений и страниц в качестве фактора в формуле рейтинга объявлений. Следовательно, мы предпочитаем рекламу, которая тематически связана со страницей, и поэтому мы избегаем ловушек чисто синтаксического подхода. Кроме того, используя иерархическую таксономию, мы допускаем постепенное обобщение пространства поиска объявлений в случае, когда нет объявлений, соответствующих точной теме страницы. Например, если страница посвящена событию в керлинге, редкому зимнему виду спорта, и содержит слова «Альпийские луга», система все равно будет иметь высокий рейтинг объявлений для катания на лыжах в Альпийских лугах, поскольку эти объявления относятся к классу «катание на лыжах», который родной брат класса «керлинг», и оба эти класса разделяют родительский «зимний спорт».

В некотором смысле классы таксономии используются для выбора набора применимых объявлений, а ключевые слова используются для сужения поиска до понятий, которые слишком малы, чтобы быть в таксономии. Таксономия содержит узлы для тем, которые не меняются быстро, например, марки цифровых камер, скажем, «Canon». Ключевые слова отражают специфику на более динамичном и детализированном уровне. В примере с цифровой камерой это будет соответствовать уровню конкретной модели, скажем, «Canon SD450», чья рекламная жизнь может составлять всего несколько месяцев. Обновление таксономии новыми узлами или даже новым словарем каждый раз, когда на рынок выходит новая модель, непомерно дорого, когда мы имеем дело с миллионами производителей.

В дополнение к увеличению рейтинга кликов (CTR) из-за возросшей релевантности, существенное, но более сложное для количественного определения преимущество семантико-синтаксического сопоставления состоит в том, что получающаяся страница имеет единое чувство и улучшает взаимодействие с пользователем. В приведенном выше примере Chevy Tahoe классификатор установил бы, что страница посвящена автомобилям и автомобилям, и будут рассматриваться только эти объявления. Даже если для этой конкретной модели Chevy нет объявлений, выбранные объявления все равно будут находиться в автомобильном домене.

Для реализации нашего подхода нам необходимо решить сложную проблему: классифицировать как страницы, так и рекламу в рамках большой таксономии (чтобы детализация темы была достаточно маленькой) с высокой точностью (чтобы вероятность несоответствия была уменьшена). Мы оценили несколько классификаторов и таксономий, и в этой статье мы представляем результаты, используя таксономию с почти шестью тысячами узлов, используя вариацию классификатора Роккио [9]. Этот классификатор дал наилучшие результаты как по классификации страниц, так и по классификации объявлений, и, в конечном итоге, по релевантности рекламы.

ЗАКЛЮЧЕНИЕ

Контекстная реклама – экономический двигатель большого количества нетранзакционных сайтов в Интернете. Исследования показали, что одним из главных факторов успеха контекстной рекламы является их отношение к окружающему контенту. Все известные нам коммерческие решения по контекстному сопоставлению произошли от поисковых рекламных решений, в соответствии с которыми поисковый запрос сопоставляется со ставкой предложения. Естественным продолжением поисковой рекламы является извлечение фраз со страницы и сопоставление их со ставкой предложения. Однако отдельные фразы и слова могут иметь несколько значений и / или не иметь отношения к общей теме страницы, что приводит к несовпадающей рекламе.

В этой статье мы предложили новый способ сопоставления рекламных объявлений с веб-страницами, которые основаны на тематическом (семантическом) сопоставлении в качестве основного компонента оценки релевантности. Семантическое соответствие основывается на классификации страниц и рекламы в таксономии коммерческой рекламы с 6000 узлами для определения их тематического расстояния. Поскольку классификация основана на полном содержании страницы, она является более надежной, чем отдельные фразы на странице. Семантическое совпадение дополняется синтаксическим совпадением, и окончательная оценка представляет собой выпуклую комбинацию двух промежуточных оценок с относительным весом каждого, определяемым параметром α.

Мы оценили семантико-синтаксический подход против синтаксического подхода на множестве страниц с различной контекстной рекламой. Как показано в нашей экспериментальной оценке, оптимальное значение параметра α зависит от точной цели оптимизации (точность в конкретной позиции, точность при заданном отзыве). Однако во всех случаях оптимальное значение составляет от 0,25 до 0,9, что указывает на значительный эффект компонента семантической оценки. Эффективность синтаксического соответствия зависит от качества используемых страниц. На страницах низкого качества мы более склонны делать ошибки классификации, которые затем негативно влияют на соответствие. Мы продемонстрировали, что возможно создать крупномасштабный классификатор, который имеет достаточно хорошую точность для этого приложения.

В настоящее время мы изучаем, как использовать алгоритмы машинного обучения для определения оптимального значения α на основе набора функций входных страниц.

Использованные источники

[1] Ricardo A. Baeza-Yates and Berthier A. Ribeiro-Neto. Modern Information Retrieval. ACM Press / Addison-Wesley, 1999.

[2] Bernhard E. Boser, Isabelle Guyon, and Vladimir Vapnik. A training algorithm for optimal margin classifiers. In Computational Learing Theory, pages 144–152, 1992.

[3] Andrei Z. Broder, David Carmel, Michael Herscovici, Aya Soffer, and Jason Zien. Efficient query evaluation using a two-level retrieval process. In CIKM ’03: Proc. of the twelfth international conference on Information and knowledge management, pages 426–434, New York, NY, USA, 2003. ACM Press.

[4] Patrali Chatterjee, Donna L. Hoffman, and Thomas P. Novak. Modeling the clickstream: Implications for web-based advertising efforts. Marketing Science, 22(4):520–541, 2003.

[5] D. Fain and J. Pedersen. Sponsored search: A brief history. In In Proc. of the Second Workshop on Sponsored Search Auctions, 2006. Web publication, 2006.

[6] Stephen C. Gates, Wilfried Teiken, and Keh-Shin F. Cheng. Taxonomies by the numbers: building high-performance taxonomies. In CIKM ’05: Proc. of the 14th ACM international conference on Information and knowledge management, pages 568–577, New York, NY, USA, 2005. ACM Press.

[7] Anisio Lacerda, Marco Cristo, Marcos Andre; Goncalves, Weiguo Fan, Nivio Ziviani, and Berthier Ribeiro-Neto. Learning to advertise. In SIGIR ’06: Proc. of the 29th annual international ACM SIGIR conf., pages 549–556, New York, NY, USA, 2006. ACM Press.

[8] Berthier Ribeiro-Neto, Marco Cristo, Paulo B. Golgher, and Edleno S. de Moura. Impedance coupling in content-targeted advertising. In SIGIR ’05: Proc. of the 28th annual international ACM SIGIR conf., pages 496–503, New York, NY, USA, 2005. ACM Press.

[9] J. Rocchio. Relevance feedback in information retrieval. In The SMART Retrieval System: Experiments in Automatic Document Processing, pages 313–323. PrenticeHall, 1971.

[10] P. Sandeep, D. Agarwal, D. Chakrabarti, and V. Josifovski. Bandits for taxonomies: A model-based approach. In In Proc. of the SIAM International Conference on Data Mining, 2007.

[11] Thomas J. Santner and Diane E. Duffy. The Statistical Analysis of Discrete Data. Springer-Verlag, 1989.

[12] Raymie Stata, Krishna Bharat, and Farzin Maghoul. The term vector database: fast access to indexing terms for web pages. Computer Networks, 33(1-6):247–255, 2000.

[13] Wen tau Yih, Joshua Goodman, and Vitor R. Carvalho. Finding advertising keywords on web pages. In WWW ’06: Proc. of the 15th international conference on World Wide Web, pages 213–222, New York, NY, USA, 2006. ACM Press.

[14] Chingning Wang, Ping Zhang, Risook Choi, and Michael D. Eredita. Understanding consumers attitude toward advertising. In Eighth Americas Conference on Information System, pages 1143–1148, 2002.


A Semantic Approach to Contextual Advertising
Andrei Broder, Marcus Fontoura, Vanja Josifovski, Lance Riedel

If you found an error, highlight it and press Shift + Enter or click here to inform us.

Author: master

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *