Удивительные данные с HeadHunter

#Технологии — Опубликовано 2 месяца назад

Практически взял с hh то что мне нужно, начиная от данных компании и заканчивая резюме. Перенёс их многочисленные словари типа "занятости" и "опыта работы". Но больше всего меня удивляет их словарь "ключевых навыков". Знаете сколько у них в словаре "ключевых навыков" (skills)? Да, их очень много, ведь они пополняются с вводом любого бреда в резюме или в вакансии. Вы можете ввести что-то вроде "супер обаятельный опытный пользователь ПК" и это станет новой записью в навыках, которые пополняются буквально каждую минуту.

В словаре Даля всего 200 000 слов, но у них в базе содержатся 7 877 235 навыков на 21 августа. То есть, почти 8 миллионов различных записей типа "красивый пользователь Microsoft Office" и "Самостоятельно изучал С# по видео-курсам в интернете основы + ADO.NET(больше года не пользовался)" (https://api.hh.ru/skills?id=7877252).


Вот ссылка на id их последнего на данный момент навыка: https://api.hh.ru/skills?id=7877235 и этот словарь пополняется каждую минуту с вводом новых навыков в вакансиях и резюме. То есть, каждый раз при вводе навыков вы совершаете поиск среди 8 миллионов навыков на hh и если их не находите, то добавляете новый. И в итоге формируете словарь в котором навыков больше чем самих слов в языке.

Им еще нужно хранить всякие id-шники навыков, хотя они могли бы хранить эти навыки внутри вакансии как текстовое поле, а не отдельным словарем данных. Поэтому, не совершу их ошибок и буду хранить навыки как текстовое поле внутри вакансии. А Elasticsearch даст мне норм текстовый поиск не по миллионам лишних данных словаря мемов навыков, а по вакансиям и резюме.

Ох, сколько же у меня работы предстоит по написанию различных компонентов на vue и переносу системы комментирования с Ranbu, которая работает с "Centrifuge" и дает реал-тайм для комментирования. Хорошо, что там не требуется древовидные комментарии, а всего лишь система сообщении между "соискателями" и "hh менеджерами". 

В последующем скину и другие скриншоты, так как хоть и определился с названием приложения, многого еще не могу показать.

P.S. Так как сюда никто кроме меня не заходит, то и всякие штучки для того, что не мог тянуть их данные без api тоже не пофиксят. Поэтому, спасибо, что есть такой немного неудобный сервис, где можно не только найти работу, но и взять данные для приложения.


Чтобы видеть и оставлять комменты зайдите через:
Вконтакте Facebook Twitter Google+