Последняя версия DataExpress 3 beta от 18 июля 2020 года.
Изображение Скачать | Изображение Что нового?
См. также: Энциклопедия DX | Форум на develop-soft | Расширения
ИзображениеИзображениеИзображение

БД словочетаний и цитат

Готовые базы данных пользователей, которые можно использовать безвозмездно, то есть даром.
Администрация форума не несёт ответственности за качество баз в этом разделе, мы не тестируем и не проверяем качества чужих баз данных, а значит не можем гарантировать их работоспособность.
capsmolet
Интересующийся
Сообщения: 111
Зарегистрирован: Пт сен 20, 2019 7:26 pm
Благодарил (а): 24 раза
Поблагодарили: 12 раз

БД словочетаний и цитат

Сообщение capsmolet » Чт апр 09, 2020 7:30 pm

Спасибо всем участникам форума, кто помог реализовать данный проект!

База данных словосочетаний и цитат (cowords.fdb).
Предназначена для накопления словосочетаний, фраз, цитат и привязки к ним ключевых слов. Будет полезна тем, кто пишет различные тексты.
Состоит из двух отдельных задач:
1. Накопление интересных словосочетаний;
2. Накопление цитат с ссылкой на источник и автора.

Для входа в базу:
Пользователь-разработчик - developer
Простой пользователь - user
Пароль для всех - 1

Screenshot_20200623_1.png
Screenshot_20200623_1.png (60.06 КБ) 1212 просмотров

Screenshot_20200623_2.png
Screenshot_20200623_2.png (52.66 КБ) 1212 просмотров

Screenshot_20200623_3.png
Screenshot_20200623_3.png (121.21 КБ) 1212 просмотров


Общая информация.
База изначально, в качестве примера, наполнена некоторыми данными, Вы можете все очистить или удалить определенные записи.

1. Таблица "Ключевые слова" содержит 9498 базовых ключевых слов или стем, т.е. слов, приведенных к их начальной форме.
Вам решать добавлять ли любые ключевые слова, независимо от их склонения, словообразования и т.д. Я добавляю в зависимости от контекста фразы, т.к. иногда необходимо найти конкретное словосочетание или цитату по определенному склоненному ключевому слову или несущую какой либо оттенок, например, деревенско-бытовой, не "любовь", а "любови" - "Она ведь за него пошла по любови".
2. Таблица "Цитаты" содержит только несколько примеров, размер одной цитаты не может быть больше 2000 символов, на практике, наверное, желательно вносить меньше (1700-1900), т.к. есть переводы строк, непечатаемые символы.
3. Таблица "Авторы" включает в себя изображение автора, которые хранятся в базе, т.к. размер изображений у меня 200x200px, Вы можете изменить метод хранения, который Вам будет удобнее.
4. Таблицы содержат проверку уникальности по определенным полям:
4.1. Словосочетания -> Словосочетание.
4.2. Авторы -> Идентификатор автора (скрытое поле, формируется конкатенацией Фамилия, Имя, Отчество, Дата рождения, Дата смерти). В принципе, достаточно было бы и трех идентификационных характеристик, но на всякий случай. Так что, при занесении авторов принимайте это во внимание и старайтесь внести полные данные. Однако, иногда будут встречаться ситуации, когда будет отсутствовать часть идентификационных характеристик, например, у античных авторов дату мы не занесем (а всегда хотелось использовать тип даты), я заношу ее в краткую биографию, а при внесении нового автора обязательно проверяю есть ли он в базе.
4.3. Жанры -> Жанр.
4.4. Имена -> Имя
4.5. Отчества -> Отчество (2-е имя)
4.6. Ключевые слова -> Ключевое слово
4.7. Серия книги -> Серия книги
5. В таблицах "Словосочетания" и "Цитаты" присутствует поле "Обработано", так как Вы можете внести словосочетания или цитаты, а ключевые слова привязать позднее.
6. В каждой таблице присутствуют скрытые поля "Литера (1)", "Литера (2)", "Литера (3)", которые используются для построения дерева.


Порядок работы по ведению базы.
1. Задача по внесению словосочетаний:
Здесь все просто, вносим словосочетания и привязываем к ним ключевые слова.

2. Задача по внесению цитат:
Как мы читаем? Сначала берем автора, потом его книгу (произведение), затем читая выделяем цитаты.
2.1. Заносим автора;
2.2. Заносим книгу;
2.3. Связываем книгу с автором;
2.4. Заносим цитаты;
2.5. Связываем цитаты с книгой;
2.6. Привязываем к цитатам ключевые слова.

Хотя можно занести автора, от него занести книгу, а от книги завести цитаты (не забываем выбрать книгу):
1. Вносим автора
2. От автора вносим книги (т.к. я добавляю несколько книг сразу и обрабатываю их параллельно)
3. Переходим в форму книги, выбираем необходимую книгу и начинаем от нее вносить цитаты.

3. Некоторые элементы по заполнению базы можно провести в полуавтоматическом режиме.
Для обработки текста используем простые скрипты.
Внимание все скрипты отрабатывались в Linux и используют определенный набор программ:
- sed
- awk
- sort
- cat
- tr
- wc
- mystem (от Яндекс)

3.1. dxcw - обработка словосочетаний для загрузки в Dataexpress.
Синтаксис:
dxcw Файл-источник [Файл-приемник] [Имя поля в DX] [Ограничитель строки]
- Файл-источник - обязательный аргумент.
- Файл-приемник - необязательный аргумент, по умолчанию: tcw_Файл-источник.csv.
- Имя поля DX - необязательный аргумент, по умолчанию: Словосочетание.
- Ограничитель строк - необязательный аргумент, по умолчанию: " (кавычка).

- Так как скрипт не проверяет входные параметры необходимо соблюдать порядок необязательных аргументов.
- Нельзя указать Файл-источник Ограничитель строки, однако можно Файл-источник Файл-приемник Файл-словарь стоп-слов
- Каждое словосочетание в файле должно начинаться с новой строки. Допускаются повторы словосочетаний и пустые строки (они будут удалены).

3.2. apsw - генератор словаря стоп-слов для SED.
Сначала готовим простой текстовый файл в utf-8, каждое слово в файле должно быть с новой строки, допускаются повторы слов.
Затем запускаем: apsw файл_источник файл_приемник
Например: apsw stopwords.txt stopwords_all.dic - используется по умолчанию в других скриптах, так что если не хочется каждый раз указывать словарь, используйте данное имя файла.
Этот скрипт запускается единожды, если у Вас уже есть список стоп-слов.
Можете воспользоваться моим (см. во вложении)

3.3. dxkw - выделение ключевых слов (без стемминга) для загрузки в Dataexpress.
Синтаксис:
dxkw Файл-источник [Файл-приемник] [Файл-словарь стоп-слов] [Имя поля в DX] [Ограничитель строки]
- Файл-источник - обязательный аргумент.
- Файл-приемник - необязательный аргумент, по умолчанию: tkw_Файл-источник.csv.
- Имя поля DX - необязательный аргумент, по умолчанию: Ключевое слово.
- Ограничитель строк - необязательный аргумент, по умолчанию: " (кавычка).

- Так как скрипт не проверяет входные параметры необходимо соблюдать порядок необязательных аргументов.
- Нельзя указать Файл-источник Ограничитель строки, однако можно Файл-источник Файл-приемник Файл-словарь стоп-слов
- Можно использовать любой текст в UTF-8.

3.4. dxstem - выделение основы ключевых слов (стемминг) для загрузки в Dataexpress.
Синтаксис:
dxstem Файл-источник [Файл-приемник] [Файл-словарь стоп-слов] [Имя поля в DX] [Ограничитель строки]
- Файл-источник - обязательный аргумент.
- Файл-приемник - необязательный аргумент, по умолчанию: tkw_Файл-источник.csv.
- Имя поля DX - необязательный аргумент, по умолчанию: Ключевое слово.
- Ограничитель строк - необязательный аргумент, по умолчанию: " (кавычка).

- Так как скрипт не проверяет входные параметры необходимо соблюдать порядок необязательных аргументов.
- Нельзя указать Файл-источник Ограничитель строки, однако можно Файл-источник Файл-приемник Файл-словарь стоп-слов
- Можно использовать любой текст в UTF-8.

4. В файле genre.csv содержатся жанры, принятые для fb2.


dxdb_icon Демо онлайн


Вложения
cowords.7z
(691.93 КБ) 15 скачиваний

capsmolet
Интересующийся
Сообщения: 111
Зарегистрирован: Пт сен 20, 2019 7:26 pm
Благодарил (а): 24 раза
Поблагодарили: 12 раз

БД словочетаний и цитат

Сообщение capsmolet » Сб май 09, 2020 10:48 am

Версия от 8.05.2020 г.
База немного доработана.
Добавлены в "Ключевые слова" виды заимствований, например, славянизм, церковнославянизм, грецизм, а также описание понятия или значения ключевого слова.
В "Словосочетания" добавлена возможность описания словосочетания и его значения или смысла, например, "землей закутавшись" - быть похороненным; быть закопанным; в широком смысле - умереть, быть мертвым.

Скачивание в первом сообщении темы.

capsmolet
Интересующийся
Сообщения: 111
Зарегистрирован: Пт сен 20, 2019 7:26 pm
Благодарил (а): 24 раза
Поблагодарили: 12 раз

БД словочетаний и цитат

Сообщение capsmolet » Пн май 11, 2020 7:06 pm

Версия от 11.05.2020 г.

- Добавлена Главная форма.
- Мелкие доработки.

Скачивание в первом сообщении темы.

capsmolet
Интересующийся
Сообщения: 111
Зарегистрирован: Пт сен 20, 2019 7:26 pm
Благодарил (а): 24 раза
Поблагодарили: 12 раз

БД словочетаний и цитат

Сообщение capsmolet » Вт июн 23, 2020 1:50 pm

Версия от 20.06.2020 г.
С учетом приобретения новых знаний по DX, база почти полностью переработана.
Обновление в первом сообщении.

dm2002_2002
Новичок
Сообщения: 40
Зарегистрирован: Чт фев 20, 2020 8:52 pm
Благодарил (а): 11 раз
Поблагодарили: 1 раз

БД словочетаний и цитат

Сообщение dm2002_2002 » Вт июн 23, 2020 8:32 pm

Хорошая база. Есть чему поучится. Многое можно взять за эталон.

capsmolet
Интересующийся
Сообщения: 111
Зарегистрирован: Пт сен 20, 2019 7:26 pm
Благодарил (а): 24 раза
Поблагодарили: 12 раз

БД словочетаний и цитат

Сообщение capsmolet » Ср июн 24, 2020 8:14 pm

dm2002_2002 писал(а):Хорошая база. Есть чему поучится. Многое можно взять за эталон.

Спасибо за оценку, очень приятно!
По эталону вдвойне приятно!
Еще вот скрипты освоить, да времени, как всегда не хватает. :)
В качестве одной из фишек, которую я пронес аж из 90-х годов, когда были Clipper, FoxPro, Карат, это создание алфавитного указателя (по буковкам от одной до трех), в DX это кстати делается гораздо проще и удобнее.

И на форуме спасибо ребятам, как просто пользователям, так и разработчикам расширений! Все очень помогли!

Аватара пользователя
Develop-Soft
Сообщения: 1638
Зарегистрирован: Вт мар 05, 2019 6:09 pm
Благодарил (а): 122 раза
Поблагодарили: 444 раза
Контактная информация:

БД словочетаний и цитат

Сообщение Develop-Soft » Чт июн 25, 2020 12:50 am

capsmolet писал(а):Еще вот скрипты освоить, да времени, как всегда не хватает. :)

Первые 5 лет тяжело, потом привыкаешь...

capsmolet
Интересующийся
Сообщения: 111
Зарегистрирован: Пт сен 20, 2019 7:26 pm
Благодарил (а): 24 раза
Поблагодарили: 12 раз

БД словочетаний и цитат

Сообщение capsmolet » Чт июн 25, 2020 9:32 am

Develop-Soft писал(а):Первые 5 лет тяжело, потом привыкаешь...


Давно хотел спросить, у Вас на сайте есть еще продукт DyBase. Что это такое? На чем работает? Как и где Вы его используете?
На сайте мало информации.

Аватара пользователя
Develop-Soft
Сообщения: 1638
Зарегистрирован: Вт мар 05, 2019 6:09 pm
Благодарил (а): 122 раза
Поблагодарили: 444 раза
Контактная информация:

БД словочетаний и цитат

Сообщение Develop-Soft » Чт июн 25, 2020 10:23 am

capsmolet писал(а):Что это такое?

Ещё один конструктор баз.
capsmolet писал(а):На чем работает?

Трехзвенка, access. И, если не ошибаюсь - mssql. Компоненты платные, (dev express) "ознакомительные".
capsmolet писал(а):Как и где Вы его используете?

Использую для раскрутки сайта. В работе - нигде... Проект заморожен автором на неопределенный срок.

capsmolet
Интересующийся
Сообщения: 111
Зарегистрирован: Пт сен 20, 2019 7:26 pm
Благодарил (а): 24 раза
Поблагодарили: 12 раз

БД словочетаний и цитат

Сообщение capsmolet » Вс июл 05, 2020 7:31 pm

Разработка базы полностью завершена.
Изменений структуры и интерфейса больше не предполагается.
Обновление в первой сообщении.


Вернуться в «Готовые базы данных (бесплатные)»