назначение веб-страницам идентификаторов географических местоположений

Классы МПК:G06F17/30 информационный поиск; структуры баз данных для этой цели
Автор(ы):,
Патентообладатель(и):ГУГЛ ИНК. (US)
Приоритеты:
подача заявки:
2004-11-26
публикация патента:

Изобретение относится к области сетей связи. Технический результат заключается в повышении точности назначения документам идентификаторов географических местоположений. Сущность изобретения заключается в том, что система и способ назначения идентификаторов географического местоположения веб-документам могут включать в себя идентификацию набора веб-документов. Может быть идентифицирован идентификатор географического местоположения в первом веб-документе в наборе веб-документов. Идентифицированный идентификатор географического местоположения может назначаться второму веб-документу в наборе веб-документов на основании релевантности первого веб-документа второму веб-документу. 4 н. и 25 з.п. ф-лы, 11 ил. назначение веб-страницам идентификаторов географических местоположений, патент № 2339078

назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 назначение веб-страницам идентификаторов географических местоположений, патент № 2339078

Формула изобретения

1. Способ назначения идентификаторов географического местоположения веб-документам, содержащий этапы, на которых:

идентифицируют множество веб-документов;

идентифицируют идентификаторы географического местоположения, включенные в по меньшей мере некоторые из этого множества веб-документов;

назначают идентифицированные идентификаторы географического местоположения веб-документам, которые включают в себя идентификаторы географического местоположения; и

идентифицируют другие веб-документы, которые не включают в себя идентифицированные идентификаторы географического местоположения, причем эти другие веб-документы релевантны веб-документам, которые включают в себя идентификаторы географического местоположения, и

назначают идентифицированные идентификаторы географического местоположения упомянутым другим веб-документам.

2. Способ по п.1, в котором веб-документы содержат веб-страницы.

3. Способ по п.1, дополнительно содержащий этап, на котором:

стандартизируют идентифицированные идентификаторы географического местоположения в заранее заданный формат.

4. Способ по п.3, в котором на этапе стандартизации идентифицированных идентификаторов географического местоположения:

исправляют ошибки в идентифицированных идентификаторах географического местоположения.

5. Способ по п.3, в котором на этапе стандартизации идентифицированных идентификаторов географического местоположения:

дополняют идентифицированные идентификаторы географического местоположения дополнительной идентифицирующей местоположение информацией.

6. Способ по п.1, в котором идентификаторы географического местоположения включают в себя почтовые адреса.

7. Способ по п.6, в котором почтовые адреса включают в себя неполные почтовые адреса.

8. Способ по п.6, в котором идентификатор географического местоположения включает в себя телефонные номера.

9. Способ по п.1, в котором при назначении идентифицированных идентификаторов географического местоположения другим веб-документам:

определяют, является ли веб-документ, который включает в себя идентификатор географического местоположения, локальным для других веб-документов.

10. Способ по п.9, в котором при назначении идентифицированных идентификаторов географического местоположения другим веб-документам:

определяют, включает ли в себя выражение, связанное с веб-документом, который включает в себя идентификатор географического местоположения, выражение, связанное с географическим местоположением.

11. Способ по п.10, в котором при назначении идентифицированных идентификаторов географического местоположения другим веб-документам:

определяют, ссылается ли веб-документ, который включает в себя идентификатор географического местоположения, на другой веб-документ, который не включает в себя идентификатор географического местоположения, в пределах заранее заданного числа ссылок.

12. Способ по п.11, в котором при назначении идентифицированных идентификаторов географического местоположения другим веб-документам:

назначают идентификатор географического местоположения, связанный с веб-документом, который включает в себя идентификатор географического местоположения, упомянутым другим веб-документам, если определено, что веб-документ, который включает в себя идентификатор географического местоположения, является локальным для упомянутых других веб-документов, причем выражение, связанное с веб-документом, который включает в себя идентификатор географического местоположения, включает в себя выражение, связанное с географическим местоположением, или веб-документ, который включает в себя идентификатор географического местоположения, ссылается на другие веб-документы в пределах заранее заданного числа ссылок.

13. Способ по п.10, в котором выражение, связанное с веб-документом, который включает в себя идентификатор географического местоположения, связано со ссылочной привязкой.

14. Способ по п.10, в котором выражение, связанное с веб-документом, который включает в себя идентификатор географического местоположения, связано с заглавием документа HTML.

15. Способ по п.10, в котором выражение, связанное с географическим местоположением, включает в себя по меньшей мере одно из следующего:

местоположение, местоположения, направление, направления, искать, поисковик, определить местоположение, определитель местоположения, накопитель, накопители, ветвь, ветви, о, компания, контакт или информация.

16. Способ по п.10, в котором выражение, связанное с географическим местоположением, включает в себя по меньшей мере неполный почтовый адрес.

17. Способ по п.11, в котором заранее заданное число ссылок составляет приблизительно пять ссылок.

18. Способ по п.1, в котором при назначении идентифицированных идентификаторов географического местоположения другим веб-документам:

определяют, является ли веб-документ, который включает в себя идентификатор географического местоположения, локальным для других веб-документов;

определяют, имеется ли обратная ссылка от веб-документа, который включает в себя идентификатор географического местоположения, на другие веб-документы в пределах заранее заданного числа ссылок; и

назначают идентификатор географического местоположения, связанный с веб-документом, который включает в себя идентификатор географического местоположения, другим веб-документам, если определено, что веб-документ, который включает в себя идентификатор географического местоположения, является локальным для других веб-документов, и что веб-документ, который включает в себя идентификатор географического местоположения, имеет обратную ссылку на другие веб-документы в пределах заранее заданного числа ссылок.

19. Способ по п.1, содержащий этапы, на которых:

определяют, был ли прежде первый идентификатор географического местоположения назначен веб-документу;

определяют, уточняет ли второй идентификатор географического местоположения первый идентификатор географического местоположения; и

назначают второй идентификатор географического местоположения этому веб-документу, если второй идентификатор географического местоположения уточняет первый идентификатор географического местоположения.

20. Система для назначения индентификаторов географического местоположения веб-документам, содержащая:

средство для идентификации множества веб-документов;

средство для идентификации идентификатора географического местоположения, включенного в первый веб-документ в упомянутом множестве веб-документов;

средство для идентификации второго веб-документа в упомянутом множестве веб-документов, который релевантен первому веб-документу, причем этот второй веб-документ не включает в себя идентификатор географического местоположения, включенные в первый веб-документ, и

средство для назначения идентифицированного идентификатора географического местоположения упомянутому второму веб-документу в упомянутом множестве веб-документов.

21. Система по п.20, в которой средство для назначения идентифицированного идентификатора географического местоположения содержит:

средство для определения того, является ли второй веб-документ локальным для первого веб-документа, и

средство для назначения идентификатора географического местоположения второму веб-документу, если определено, что первый веб-документ является локальным для второго веб-документа.

22. Система по п.20, в которой средство для назначения идентифицированного идентификатора географического местоположения содержит:

средство для определения такого, включает ли в себя выражение, связанное с первым веб-документом, выражение, связанное с географическим местоположением, и

средство для назначения идентификатора географического местоположения второму веб-документу, если определено, что выражение, связанное с первым веб-документом, включает в себя выражение, связанное с географическими местоположениями.

23. Система по п.20, в которой средство для назначения идентифицированного идентификатора географического местоположения содержит:

средство для определения того, ссылается ли первый веб-документ на второй веб-документ в пределах заранее заданного числа ссылок, и

средство для назначения идентификатора географического местоположения второму веб-документу, если определено, что первый веб-документ ссылается на второй веб-документ в пределах упомянутого заранее числа ссылок.

24. Система по п.20, в которой средство для назначения идентифицированного идентификатора географического местоположения содержит:

средство для определения того, является ли первый документ локальным для второго веб-документа,

средство для определения того, имеет ли первый веб-документ обратную ссылку на второй веб-документ в пределах заранее заданного числа ссылок, и

средство для назначения идентификатора географического местоположения второму веб-документу, если определено, что первый веб-документ является локальным для второго веб-документа, и что первый веб-документ имеет обратную ссылку на второй веб-документ в пределах заранее заданного числа ссылок.

25. Система по п.20, содержащая средство для стандартизации идентифицированного идентификатора географического местоположения в заранее заданный формат.

26. Система по п.20, содержащая:

средство для определения того, был ли прежде второй идентификатор географического местоположения назначен второму веб-документу, причем этот второй идентификатор географического местоположения отличается от идентифицированного идентификатора географического местоположения, включенного в первый веб-документ,

средство для определения того, уточняет ли идентифицированный идентификатор географического местоположения, включенный в первый веб-документ второй идентификатор географического местоположения; и

средство для назначения идентифицированного идентификатора географического местоположения, включенного в первый веб-документ, второму веб-документу, если идентифицированный идентификатор географического местоположения, включенный в первый веб-документ, уточняет второй идентификатор географического местоположения.

27. Сервер, содержащий:

память для хранения команд; и

процессор для исполнения этих команд, чтобы:

идентифицировать идентификатор географического местоположения, включенный в первый веб-документ; и

назначать идентифицированный идентификатор географического местоположения второму веб-документу на основании релевантности первого веб-документа второму веб-документу.

28. Машиночитаемый носитель, содержащий команды для управления процессором, чтобы назначать идентификаторы географического местоположения веб-документам, содержащие:

одну или более команд для идентификации идентификатора географического местоположения, включенного в первый веб-документ,

одну или более команд для назначения идентифицированного идентификатора географического местоположения первому веб-документу,

одну или более команд для идентификации второго веб-документа, который не включает в себя идентифицированный идентификатор географического местоположения, причем этот второй веб-документ релевантен первому документу,

одну или более команд для определения того, включает ли в себя первый документ выражение, связанное с географическим местоположением, и

одну или более команд для назначения идентифицированного идентификатора географического местоположения второму веб-документу, если определено, что первый веб-документ включает в себя выражение, связанное с географическим местоположением.

29. Машиночитаемый носитель по п.28, дополнительно содержащий:

одну или более команд для стандартизации идентифицированного идентификатора географического местоположения в заранее заданный формат.

Описание изобретения к патенту

Область техники, к которой относится изобретение

Воплощения, согласующиеся с принципами изобретения, относятся в общем к предоставлению элементов данных, а конкретнее к назначению географических местоположений предоставленным элементам данных.

Предшествующий уровень техники

Всемирная паутина («веб») (World Wide Web, «web») содержит огромный объем информации. Однако определение местоположения требуемой части этой информации может потребовать усилий. Эта проблема осложнена из-за того, что быстро растет объем информации в сети и число новых пользователей, не имеющих опыта в сетевом поиске.

Механизмы поиска пытаются возвращать гиперссылки на веб-страницы, в которых заинтересован пользователь. Обычно поисковые машины базируют свое определение пользовательского интереса на поисковых терминах (именуемых поисковым запросом), введенных пользователем. Назначение поискового механизма состоит в обеспечении пользователю ссылок на высококачественные релевантные результаты (например, веб-страницы) на основании поискового запроса. Как правило, поисковый механизм выполняет это путем сопоставления терминов в поисковом запросе с массивом заранее сохраненных веб-страниц. Веб-страницы, которые содержат термины пользовательского поиска, являются «попаданиями» («hits»; совпадения при поиске данных) и возвращаются пользователю в качестве ссылок.

В попытке увеличить релевантность и качество веб-страниц, возвращаемых пользователю, поисковый механизм может попытаться отсортировать перечень совпадений при поиске данных так, чтобы наиболее релевантные страницы и/или страницы наивысшего качества находились в начале перечня совпадений, возвращаемых пользователю. Например, поисковый механизм может назначать ранг или очки каждому совпадению, где очки предназначаются соответствовать релевантности или важности веб-страницы.

К сожалению, обычные основанные на ключевых словах поисковые механизмы не всегда пригодны для нахождения веб-страниц, связанных с организациями в конкретной географической области или зоне. Такой веб-поиск не удается в первую очередь потому, что основанные на ключевых словах поисковые механизмы не могут, как правило, назначать адрес или иную географически описательную информацию тем веб-страницам, которые не включают в себя такую информацию фактически.

Предпринято несколько попыток для географического определения веб-страниц для использования поисковыми механизмами. В одной попытке поисковый механизм выполняется с возможностью поддержания центральной базы данных, связывающей УУРы (унифицированные указатели ресурсов) (URLs) с одним или несколькими географическими местоположениями. В этом сценарии владельцы поисковых механизмов вручную назначают местоположения веб-сайтам и/или делают доступными для авторов веб-сайтов механизмы, посредством которых они могут явно затребовать назначение местоположений своим веб-сайтам. Альтернативно, поисковый механизм может определять набор мета-дескрипторов (мета-тегов) HTML, которыми авторы веб-сайтов могут явно назначать одно или несколько географических местоположений непосредственно каждой из своих веб-страниц. К сожалению, обнаружено, что не доказало свою пригодность требование явного назначения местоположений веб-страницам авторами веб-сайтов или владельцами поисковых механизмов.

Третий способ включает в себя конфигурирование поискового механизма для анализа существующих почтовых адресов или иной географической информации из веб-страниц и разрешения пользователям искать веб-страницы, которые содержат как некоторые ключевые слова, так и по меньшей мере один почтовый адрес в заданной географической области или вблизи нее. К сожалению, этот принцип остается в ограниченном использовании, т.к. релевантные почтовые адреса зачастую не появляются на тех самых веб-страницах, что и релевантные поисковые ключевые слова.

Таким образом, имеется необходимость в способах и системах для точного назначения документам идентификаторов географических местоположений.

Сущность изобретения

Согласно одному аспекту, способ может включать в себя следующие шаги: идентифицируют набор веб-документов; идентифицируют идентификаторы географического местоположения, включенные в по меньшей мере некоторые из множества веб-документов; назначают идентифицированные идентификаторы географических местоположений веб-документам, которые включают в себя упомянутые идентифицированные идентификаторы географических местоположений; и назначают идентифицированные идентификаторы географических местоположений другим веб-документам на основании релевантности веб-документов, включающих в себя идентификатор географического местоположения, другим веб-документам.

Согласно другому аспекту, система может включать в себя средство для идентификации набора веб-документов; средство для идентификации идентификатора географического местоположения, включенного в первый веб-документ во множестве веб-документов; и средство для назначения идентифицированного идентификатора географического местоположения второму веб-документу во множестве веб-документов на основании релевантности первого веб-документа второму веб-документу.

Краткое описание чертежей

Сопровождающие чертежи, которые включены в данное описание и составляют его часть, иллюстрируют воплощение изобретения и совместно с описанием поясняют изобретение. На чертежах:

фиг.1 является примерной схемой сети, в которой могут воплощаться системы и способы, согласующиеся с принципами изобретения;

фиг.2 является примерной схемой клиент-сервер согласно воплощению, согласующемуся с принципами изобретения;

фиг.3 является блок-схемой, иллюстрирующей воплощение примерного поискового механизма;

фиг.4 является сетевым графом узлов, таких как веб-сайты, проиндексированных поисковым механизмом по фиг.1;

фиг.5 является блок-схемой алгоритма примерного процесса назначения географической идентификационной информации веб-страницам, включенным в результаты поиска, предоставленные клиенту в воплощении, согласующемся с принципами изобретения;

фиг.6 является блок-схемой алгоритма примерного процесса стандартизации и назначения идентификаторов географических местоположений подборке веб-страниц в воплощении, согласующемся с принципами изобретения;

фиг.7 является блок-схемой алгоритма примерного процесса назначения идентификаторов географических местоположений подборке веб-страниц в воплощении, согласующемся с принципами изобретения;

фиг.8 является блок-схемой алгоритма другого примерного процесса назначения идентификаторов географических местоположений подборке веб-страниц в воплощении, согласующемся с принципами изобретения;

фиг.9 является блок-схемой алгоритма еще одного примерного процесса назначения идентификаторов географических местоположений подборке веб-страниц в воплощении, согласующемся с принципами изобретения.

Подробное описание

Нижеследующее подробное описание воплощений, согласующихся с принципами изобретения, ссылается на сопровождающие чертежи. Одни и те же ссылочные позиции на различных чертежах могут определять одни и те же или аналогичные элементы. Кроме того, нижеследующее подробное описание не ограничивает данное изобретение.

Воплощения, согласующиеся с изобретением, обеспечивают назначение идентификаторов географических местоположений веб-документам, таким как веб-страницы. В одном воплощении идентификаторы географических местоположений, включенные в веб-страницы, могут назначаться дополнительным веб-страницам, которые могут включать или не включать в себя идентификаторы географических местоположений на основании нескольких критериев релевантности. При этом веб-страницы, которые либо не включают в себя информацию, описывающую географические местоположения, либо включают в себя неточную или неполную информацию о географических местоположениях, могут, тем не менее, участвовать в поиске или быть идентифицированными на основании назначенного идентификатора географического местоположения. Как описывается здесь, релевантность документов может определяться на основе нескольких факторов, таких как относительная отдаленность между документами, используемая терминология и нахождение локального или веб-сайта. Соответственно, идентификаторы географических местоположений могут точно назначаться веб-документам.

Документ как используемый здесь термин, должен интерпретироваться в широком смысле, чтобы включать в себя любой машиночитаемый и машинохранимый рабочий продукт. Документ может быть электронной почтой, файлом, сочетанием файлов, одним или несколькими файлами со встроенными ссылками на другие файлы, групповой почтовой доставкой новостей и т.д. В контексте интернета общим документом является веб-страница. Веб-страницы зачастую включают в себя содержимое и могут включать в себя внедренную информацию (такую как мета-информация, гиперссылки и т.д.) и/или внедренные команды (такие как Javascript и т.д.).

Обзор примерной сети

Фиг.1 представляет собой примерную схему сети 100, в которой могут быть воплощены системы и способы, согласующиеся с принципами изобретения. Сеть 100 может включать в себя множество клиентов 110, соединенных с одним или несколькими серверами 120 через сеть 140. Сеть 140 может включать в себя локальную сеть (LAN), широкомасштабную сеть (WAN), телефонную сеть, такую как коммутируемая телефонная сеть общего пользования (КТСОП) (PSTN), интранет, интернет или сочетание сетей. Два клиента 110 и один сервер 120 показаны подключенными к сети 140 для простоты. На практике, клиентов и/или серверов может быть больше. Кроме того, в некоторых случаях клиент может выполнять функции сервера, а сервер может выполнять функции клиента.

Клиенты 110 могут включать в себя клиентские объекты. Объект можно определить как устройство, такое как беспроводный телефон, персональный компьютер, персональный цифровой ассистент (ПЦА) (PDA), портативный компьютер или иной тип устройства для связи или вычислений, поток команд или процесс, выполняемый на одном из этих устройств, и/или объект, исполнимый одним из этих устройств. Сервер 120 может включать в себя серверные объекты, которые обрабатывают, ищут и/или поддерживают документы в соответствии с принципами данного изобретения. Клиенты 110 и сервер 120 могут соединяться с сетью 140 по проводным, беспроводным или оптическим соединениям.

В варианте осуществления, согласующемся с принципами изобретения, сервер 120 может включать в себя подсистему 125 определения географического местоположения. В общем, подсистема 125 определения географического положения может идентифицировать и назначать идентификаторы географических местоположений веб-сайтам, доступным через сеть 140.

Примерная архитектура клиент-сервер

Фиг.2 является примерной схемой клиента 110 или сервера 120 согласно варианту осуществления, согласующемуся с принципами изобретения. Клиент/сервер 110/120 может включать в себя шину 210, процессор 220, основную память 230, постоянно запоминающее устройство (ПЗУ) (ROM) 240, устройство 250 хранения, одно или несколько устройств 260 ввода, одно или несколько устройств 270 вывода и интерфейс 280 связи. Шина 210 может включать в себя один или несколько проводников, которые обеспечивают связь между компонентами клиента/сервера 110/120.

Процессор 220 может содержать любой тип традиционного процессора, микропроцессора или логики обработки, которые интерпретируют и исполняют команды. Основная память 230 может включать в себя оперативно запоминающее устройство (ОЗУ) (RAM) или иной тип динамического устройства хранения, которое сохраняет информацию и команды для исполнения процессором 220. ПЗУ 240 может включать в себя традиционное ПЗУ или иной тип статического устройства хранения, которое сохраняет статическую информацию и команды для использования процессором 220. Устройство 250 хранения может включать в себя магнитный и/или оптический записывающий носитель и соответствующий накопитель.

Устройство(а) 260 ввода может (могут) включать в себя один или несколько традиционных механизмов, которые позволяют пользователю вводить информацию в клиент/сервер 110/120, такие как клавиатура, мышь, перо, речевое распознавание и/или биометрические механизмы и т.д. Устройство(а) 270 вывода может (могут) включать в себя один или несколько традиционных механизмов, которые выводят информацию пользователю, в том числе дисплей, принтер, громкоговоритель и т.д. Интерфейс 280 связи может включать в себя любой подобный приемопередатчику механизм, который дает возможность клиенту/серверу 110/120 осуществлять связь с другими устройствами и/или системами. Например, интерфейс 280 связи может включать в себя механизмы для осуществления связи с другим устройством или системой через сеть, такую как сеть 140.

Как будет подробнее описано ниже, сервер 120, согласующийся с принципами изобретения, может выполнять операции определения географического местоположения документа посредством подсистемы 125 определения географического местоположения. Подсистема 125 определения географического местоположения может храниться на машиночитаемом носителе, таком как память 230. Машиночитаемый носитель может быть определен как одно или несколько физических или логических запоминающих устройств и/или несущих колебаний.

Программные команды, определяющие подсистему 125 определения географического местоположения, могут считываться в память 230 из другого машиночитаемого носителя, такого как устройство 250 хранения данных, или из иного устройства через интерфейс 280 связи. Программные команды, содержащиеся в памяти 230, обуславливают выполнение процессором 220 процессов, которые будут описаны ниже. Альтернативно, вместо программных команд или в сочетании с ними может использоваться аппаратная схема для воплощения процессов, согласующихся с настоящим изобретением. Таким образом, варианты осуществления, согласующиеся с принципами изобретения, не ограничиваются конкретной комбинацией аппаратной схемы и программного обеспечения.

Подсистема определения географического местоположения

Фиг.3 является блок-схемой, иллюстрирующей вариант осуществления подсистемы 125 определения географического местоположения с дополнительными подробностями. Подсистема 125 определения географического местоположения может включать в себя компонент 340, назначающий идентификаторы географического местоположения. Документы, на которых работает компонент 340, назначающий идентификаторы географического местоположения, могут храниться в базе 330 данных. База 330 данных может быть воплощена во многих различных формах, таких как распределенная база данных, реляционная база данных и т.д. В одном варианте осуществления база 330 данных генерируется из веб-документов, доступных по всемирной сети.

Как более подробно обсуждается ниже, компонент 340, назначающий идентификатор географического местоположения, может назначать идентификатор географического местоположения документам в базе 330 данных. Согласно аспектам изобретения, идентификатор географического местоположения может быть частичным или полным почтовым адресом, телефонным номером, кодом региона и т.п., либо любым иным подходящим значением, связанным с физическим географическим положением, таким как долгота и широта. Кроме того, согласно принципам изобретения, идентификатор географического местоположения может быть основан на ссылках, таких как гиперссылки, которые связывают узлы в подборки документов в базе 330 данных.

Фиг.4 является схемой, иллюстрирующей примерный набор документов 400, индексированных сервером 120. Как упомянуто ранее, документ может ссылаться на веб-страницу или иной доступный в поиске документ. На практике, набор документов 400 был бы, как правило, много больше, чем набор, проиллюстрированный на фиг.4. К примеру, база 330 данных может содержать многие миллиарды документов. Для простоты пояснения, однако, лишь девять документов, помеченных как документы 401-409, показаны включенными в набор документов 400.

Документы в наборе 400 можно считать образующими сетевой граф, в котором каждый из документов соединяется своими соответствующими ссылками. Когда документы 400 представляют веб-страницы, эти ссылки могут быть в виде гиперссылок. На фиг.4 линии со стрелками используются для указания ссылок. Линия, выходящая из первого документа и ведущая ко второму документу, может быть названа прямой или исходящей ссылкой относительно первого документа и указывает, что первый документ является связывающим документом. Аналогично, ссылку из первого документа ко второму документу можно охарактеризовать как обратную ссылку от второго документа к первому документу. За счет характеризации ссылок как обратные ссылки, можно легко поддерживать организацию гиперссылок, указывающих на документ и от документа. Ссылка, выходящая из второго документа и ведущая к первому документу, может быть названа входящей ссылкой относительно первого документа и указывает, что первый документ является связанным документом. Документ 401, например, имеет единственную исходящую ссылку, ведущую к документу 402, и три входящих ссылки, выходящих из документов 402, 403 и 406.

Примерная обработка

Фиг.5 является блок-схемой алгоритма примерного процесса назначения географической идентификационной информации веб-документам, включенным в результаты поиска, предоставленные клиенту 110, в варианте осуществления, согласующемся с принципами изобретения. Хотя нижеследующее описание фокусируется на предоставлении результатов поиска, понятно, что варианты осуществления, согласующиеся с принципами изобретения, в равной степени применимы к другим типам информации, помимо результатов поиска. К примеру, варианты осуществления, согласующиеся с принципами изобретения, в равной мере применимы к назначению идентификаторов местоположения веб-документам, на которые ссылаются или которые содержатся в других источниках, таких как директории и т.п.

Обработка может начинаться путем начальных идентификации, сбора, определения местоположения или иной индексации ряда веб-документов, таких как документы в базе 330 данных (операция 500). В одном варианте осуществления, согласующемся с принципами изобретения, местоположение веб-документов может определяться и веб-документы могут собираться безотносительно к конкретному поисковому запросу с помощью, например, автоматических поисковых роботов или технологии сетевого поиска. В другом варианте осуществления, согласующемся с принципами изобретения, собирается также реляционная связывающая информация для каждого документа, указывающая те документы, которые ссылаются на каждый собранный документ или на которые есть ссылки из каждого собранного документа.

Затем можно идентифицировать идентификаторы географического местоположения, присутствующие в этих документах (операция 510). К примеру, документ может включать в себя частичный почтовый адрес, такой как 1234 Anywhere Lane, Fairfax, VA. Частичный адрес можно идентифицировать и связать с документом, из которого он был извлечен. В одном варианте осуществления, согласующемся с принципами изобретения, подходящие идентификаторы географического местоположения могут включать в себя частичные или полные почтовые адреса, хотя могут использоваться и альтернативные идентификаторы географического местоположения, такие как коды регионов, телефонные номера, коды аэропортов, идентификаторы географических ориентиров и т.п. В еще одном варианте осуществления, согласующемся с принципами настоящего изобретения, можно использовать метод сопоставления с образцом для определения идентификаторов географического местоположения. В таком варианте осуществления веб-документы могут проверяться на текст, который соответствует стандартному формату для адреса, частичного адреса, телефонного номера и т.п., или дополнительные выражения, которые указывают наличие географической описательной информации.

Идентифицированные идентификаторы географического местоположения могут затем быть стандартизованы в общий, заранее заданный формат (операция 520). К примеру, частичные или нестандартизованные адреса, не содержащие почтовых индексов, можно стандартизировать, чтобы они включали в себя соответствующий почтовый индекс. Альтернативно, идентифицируемые неправильные написания или иные ошибки или недостатки можно исправить так, чтобы гарантировать, что идентификаторы географического местоположения, связанные с документом имеются в точном, стандартизованном формате для каждого документа. В одном варианте осуществления, согласующемся с принципами изобретения, можно использовать стандартизацию, чтобы идентифицировать уточнение и тождество идентификаторов географического местоположения. Идентификация уточнения идентификаторов географического местоположения относится к определению того, сужает ли далее один идентификатор географического местоположения другой идентификатор географического местоположения, как, например, 1234 Anywhere Drive, Fairfax, VA сужает Fairfax, VA. Помимо этого, стандартизация может привести к извлечению информации, включенной вместе с идентификатором географического местоположения в заранее заданные категории, которые могут помочь при последующем использовании идентификатора. Такие категории могут включать в себя номер улицы, название улицы, тип улицы, город, штат, графство, страну, почтовый индекс и т.п.

После стандартизации идентификаторов географического местоположения идентификатор географического местоположения может быть сначала назначен веб-документам, на которых этот идентификатор географического местоположения появляется (операция 524). Помимо этого, идентификатор географического местоположения может назначаться документам, которым еще не назначен или которые не включают в себя идентификатор географического местоположения, или которым назначен отличный идентификатор географического местоположения (операция 530). Согласно одному варианту осуществления, согласующемуся с принципами изобретения, такое назначение можно выполнять путем назначения каждому документу идентификатора географического местоположения, связанного с другим документом, который ссылается прямо или косвенно (на протяжении заранее заданного числа ссылок) на данный документ. Дополнительные детали, касающиеся назначения идентификаторов географического местоположения, будут изложены более подробно ниже. Когда идентификатор географического местоположения назначен каждому документу, идентификаторы местоположения можно использовать при выполнении последующих поисков или при ранжировании результатов поиска. Альтернативно, результаты, включенные в документы, могут указывать на связанные идентификаторы географического местоположения, тем самым помогая пользователям сортировать выданные результаты.

Фиг.6 является блок-схемой алгоритма примерного процесса стандартизации и назначения идентификаторов географического местоположения подборке веб-документов Р в варианте осуществления, согласующемся с принципами изобретения. Сначала для каждого веб-документа Р определяется, найден ли в документе частичный или полный почтовый адрес А (операция 600). Если адреса не найдено, процесс переходит к операции 614, описанной ниже. Однако, если адрес А найден в документе Р, этот адрес стандартизируется, как описано выше, чтобы поместить этот адрес в согласованный формат (операция 602). Это может включать в себя исправление и дополнение данных либо любой подобный подходящий метод стандартизации.

Может быть также определено, связывался ли раньше адрес А' с документом Р (операция 604). К примеру, адрес А' мог ранее появиться в документе Р, если нет, процесс переходит к операции 612, описанной ниже. Однако, если адрес А' ранее был связан с документом Р, то затем определяется, уточняет ли адрес А' дополнительно адрес А (к примеру, добавляет в адресе улицу к информации города, штата) или эквивалентен адресу А (операция 606). Если да, процесс переходит к операции 614, описанной ниже, для обработки следующего документа. Однако, если определяется, что адрес А' не уточняет дополнительно адрес А и не равен адресу А, далее определяется, уточняет ли адрес А этот адрес А' (операция 608). Если адрес А дополнительно уточняет адрес А', то адрес А' затем отделяется от документа Р (операция 610), а адрес А связывается с документом Р (операция 612). После этого Р получает приращение до Р+1 (операция 614), и процесс возвращается в операции 600 для проверки следующего доступного документа.

Фиг.7 является блок-схемой алгоритма примерного процесса назначения идентификаторов географического местоположения подборке веб-документов Р в варианте осуществления, согласующемся с принципами изобретения. Сначала предполагается, что веб-документы, имеющие присутствующие в них идентификаторы географического местоположения, уже имеют эти идентификаторы, назначенные документу согласно вариантам осуществления, подробно изложенным выше. Соответственно, процесс может начаться идентификацией для каждого документа Р тех документов Р', которые включают в себя идентификатор географического местоположения и являются «релевантными» для документа Р с точки зрения географической идентификации (операция 700).

Согласно одному варианту осуществления, согласующемуся с изобретением, «релевантные» документы Р' могут быть определены как относящиеся к вопросу о географическом местоположении(ях) владельцев веб-сайтов, причем 1) документ Р' является «локальным» для документа Р в том смысле, что документ Р' представляет собой отличный документ на том же самом веб-сайте, что и документ Р, и 2) привязка, появляющаяся на документе Р, ссылающаяся на документ Р', содержит одно или несколько выражений из малого, эвристически найденного набора выражений. Выражение «привязка» относится к части гиперссылки HTML, которую видно на веб-документе. Например, текст «Google» является привязкой к следующей гиперссылке: <a href=назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 http://www.google.com/назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 > Google </a>. Примерные выражения, используемые при нахождении релевантности, могут включать в себя - но не ограничиваться ими - например, «местоположение(я)», «направление(я)», «найти», «поисковик», «определить местоположение», «определитель местоположения», «накопитель(и)», «ветвь(и)», «о», «компания», «контакт», «информация» и т.п. Смотрите ниже подробнее об этой эвристически определенной «релевантности» гиперссылок.

В другом варианте осуществления, согласующемся с принципами изобретения, ссылка на документ Р' может рассматриваться релевантной, если ее привязка включает в себя полный или частичный почтовый адрес. Альтернативно, для привязок изображений или иных нетекстовых объектов документ Р' может считаться релевантным, если его URL (унифицированный указатель ресурсов, УУР) включает в себя либо полный или частичный почтовый адрес, либо любое из вышеперечисленных выражений.

В еще одном варианте осуществления, согласующемся с принципами изобретения, документ Р' может считаться релевантным за счет непосредственной проверки содержимого документа Р'. Например, гиперссылка, не отвечающая ни одному из вышеуказанных проверок, может все же считаться «релевантной», если заголовок HTML целевого документа включает в себя любое из вышеперечисленных выражений либо полный или частичный почтовый адрес. Реальный вариант осуществления с помощью этой проверки, несомненно, включал бы в свой первый проход обнаружение всех веб-документов в архиве, которые проходят эту проверку целевого документа. Можно запустить более подробную эвристику для нахождения того, делает ли целевой документ гиперссылку «релевантной».

Когда идентифицирован по меньшей мере один релевантный документ Р', далее определяется, достижим ли документ Р' в пределах заранее заданного числа ссылок от документа Р (операция 710). В одном примерном варианте осуществления число ссылок может находиться в диапазоне 2-5 ссылок. Если нет, процесс переходит к операции 730 для продвижения к следующему релевантному документу Р'. Однако, если Р' достижим в пределах заранее заданного числа ссылок, идентификатор(ы) географического местоположения, связанный с документом Р', может быть связан с документом Р (операция 720). Затем процесс продолжается к операции 730, где Р' получает приращение к следующему потенциально релевантному документу (если он есть). Затем процесс возвращается к операции 710. За счет назначения идентификатора(ов) географического местоположения из релевантных веб-документов этот идентификатор(ы) может быть точно связан с намного назначение веб-страницам идентификаторов географических местоположений, патент № 2339078 числом веб-документов, что усиливает полезность этих документов.

Фиг.8 является блок-схемой алгоритма другого примерного процесса назначения идентификаторов географического местоположения подборке веб-документов Р в варианте осуществления, согласующемся с принципами изобретения. Сначала устанавливается по меньшей мере один документ Р с по меньшей мере одним связанным с ним стандартизованным идентификатором географического местоположения, таким как те, что описаны выше в отношении фиг.6 (операция 800). Затем, для каждого документа Р связанный с документом Р идентификатор(ы) географического местоположения может быть назначен каждому релевантному документу Р', соединенному обратной ссылкой из документа Р (операция 810). Как описано выше, релевантность может быть определена эвристически и может включать в себя документы, общие для конкретного веб-сайта и достижимые в пределах заранее заданного числа обратных ссылок. Если начинать с документа, содержащего идентификаторы географического местоположения, и отрабатывать назад, может потенциально наблюдаться эффективность.

Фиг.9 является блок-схемой алгоритма еще одного примерного процесса назначения идентификаторов географического местоположения подборке веб-документов Р в варианте осуществления, согласующемся с принципами изобретения. Сначала идентифицируются i наборов почтовых адресов Ai(P), появляющихся в документе Р' и достижимых из документа Р после i «релевантных» гиперссылок (операция 900). В этом варианте осуществления каждый набор Ai(P) (для i от 0 до N, где N является максимальным числом ссылок) включает в себя адреса, включенные в документы, достижимые через i ссылок и связанные с документом Р. К примеру, в сценарии, где N = 3, устанавливаются четыре отдельных набора Ai(P), т.е. А0(Р), А1(Р), А2(Р) и А3(Р), причем каждый набор включает в себя адреса, достижимые из документа Р через конкретное число ссылок (например, 0-3). Затем для каждого релевантного документа Р', достижимого из документа Р, адреса, связанные с документом P' при одной удаленной ссылке (например, Ai-1(P')), назначаются документу Р в наборе, связанном со ссылочной удаленностью i (например, А1(Р)) (операция 910). В этой альтернативе все наборы А1(Р)-AN(Р) строятся для каждого документа по очереди, следуя «релевантным» гиперссылкам, но выигрывают в производительности за счет сохранения наборов Ai(P'), вычисленных для соседних документов.

Фиг.10 является графическим отображением примерного веб-документа 1000, который не включает в себя идентификаторы географического местоположения, непосредственно используемые в поиске или ином идентифицировании веб-документа 1000 в наборе веб-документов. Как показано на фиг.10, веб-документ 1000 может быть веб-страницей, относящейся к меню для «Закусочной Джо», и может включать в себя различные пункты 1002 меню, включающие в себя, к примеру, сандвич с жареным тунцом. Соответственно, поскольку веб-документ 1000 не включает в себя никаких идентификаторов географического местоположения, поиск по выражениям «жареный тунец» и «Фэрфакс, Вирджиния» с помощью традиционной поисковой системы не сможет выдать документ 1000. Однако в соответствии с принципами изобретения, ссылка 1004 «Направления» может указать на связанный веб-документ, который как раз включает в себя подходящий идентификатор географического местоположения, к примеру, адрес, номер телефона и т.п.

Фиг.11 является графическим отображением примерного веб-документа 1100, связанного с ссылкой 1004 на веб-документе 1000 и включающего в себя идентификаторы географического местоположения. Конкретнее, такие идентификаторы географического местоположения могут включать в себя деловой адрес 1102, номер 1104 телефона. Помимо этого, веб-документ 1100 может включать в себя направления 1106 проезда и карту 1108 для помощи в точном определении местоположения этой фирмы.

Как подробно описано выше, один или несколько идентификаторов 1102 и 1104, связанных с веб-документом 1100, могут назначаться веб-документу 1000. Согласно принципам изобретения, веб-документ 1100 может быть идентифицирован как «релевантный» веб-документу 1000, потому что 1) он является «локальным» для документа 1000 в том, что он является частью того же самого веб-сайта, 2) ссылка 1004 на веб-документе 1000, связанная с веб-документом 1100, включает в себя одно или несколько описанных выше географически описательных выражений, и 3) веб-документ 1100 находится в пределах заранее заданного числа ссылок от документа 1000 (на одну ссылку в данном примере). Соответственно, один или несколько идентификаторов 1102 и 1104 географического местоположения, связанных с веб-документом 1100, могут быть назначены веб-документу 1000, благодаря чему облегчается поиск веб-документа 1000 на основе одного или нескольких идентификаторов географического местоположения.

Заключение

Варианты осуществления, согласующиеся с принципами изобретения, облегчают назначение идентификаторов географического местоположения веб-документам, в которые не включены идентификаторы географического местоположения.

Предшествующее описание примерных вариантов осуществления изобретения обеспечивает иллюстрацию и описание, но не предназначено быть исчерпывающим или ограничивать изобретение описанными точными формами. Модификации и изменения возможны в свете вышеприведенного рассмотрения или могут быть получены из применения изобретения. Например, одна или несколько операций, описанных в отношении фиг.5-9, могут выполняться сервером 120 или иным устройством (или сочетанием устройств). Хотя в отношении фиг.5-9 описана последовательность операций, порядок этих операций может меняться в иных вариантах осуществления, согласующихся с изобретением. Кроме того, параллельно могут осуществляться независимые операции.

Специалистам также понятно, что объекты изобретения, как описано выше, могут быть воплощены во многих различных формах программного обеспечения, встроенных программ и аппаратного обеспечения в вариантах осуществления, проиллюстрированных на чертежах. Реальный программный код или специализированное аппаратное управление, используемые для воплощения объектов, согласующихся с принципами изобретения, не ограничивает изобретения. Таким образом, работа и поведение объектов изобретения были описаны без ссылок на конкретный программный код - понятно, что специалист способен разработать программное обеспечение и управляющую аппаратуру для воплощения этих объектов на основе приведенного здесь описания.

Далее, некоторая часть изобретения может быть воплощена как «логика», которая выполняет одну или несколько функций. Эта логика может включать в себя аппаратуру, такую как специализированная интегральная схема или программируемая пользователем логическая матрица, программное обеспечение или сочетание аппаратного и программного обеспечения.

Никакие элемент, операция или команда, использованные в описании изобретения, не следует интерпретировать как критичные или существенные для изобретения, если только они не описаны исключительно как таковые. Кроме того, как используется здесь, неопределенный артикль «а» предназначен включать в себя один или несколько элементов. Если же имеется в виду только один элемент, используется выражение «один» или аналогичное выражение. Далее, фраза «на основе» (на основании) предназначена для интерпретации как «на основании, по меньшей мере частично», если только прямо не указано противоположное.

Класс G06F17/30 информационный поиск; структуры баз данных для этой цели

способ и устройство отображения множества элементов -  патент 2528147 (10.09.2014)
система генерирования статистической информации и способ генерирования статистической информации -  патент 2527754 (10.09.2014)
способ конверсии данных, устройство конверсии данных и система конверсии данных -  патент 2527201 (27.08.2014)
телекоммуникационная чип-карта, мобильное телефонное устройство и считываемый компьютером носитель данных -  патент 2527197 (27.08.2014)
способ восстановления данных в системе управления базами данных -  патент 2526753 (27.08.2014)
способ и устройство хранения, чтения и записи составного документа -  патент 2525752 (20.08.2014)
устройство связи, способ связи и система связи -  патент 2524861 (10.08.2014)
адаптивное неявное изучение для рекомендательных систем -  патент 2524840 (10.08.2014)
основанная на контексте рекомендующая система -  патент 2523930 (27.07.2014)
способ динамической визуализации коллекции изображений в виде коллажа -  патент 2523925 (27.07.2014)
Наверх